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VOICE 妃 
《深入 解析 Go》 
因为 自己 对 Go 底层 的 东西 比较 感 兴趣 ， 所 以 抽空 在 写 一 本 开源 的 书籍 《深入 解析 Go》。 写 这 本 书 不 表示 我 能 力 很 强 ， 而 是 
我 愿意 分 享 ， 和 大 家 一 起 分 享 对 GO 语言 的 内 部 实现 的 一 些 研究 。 
我 一 直 认 为 知识 是 用 来 分 享 的 ， 让 更 多 的 人 分 享 自己 拥有 的 一 切 知识 这 个 才 是 人 生 最 大 的 快乐 。 


这 本 书目 前 我 放 在 Github 上 ， 时 间 有 限 、 能 力 有 限 ， 所 以 希望 更 多 的 朋友 参与 到 这 个 开源 项 目 中 来 。 


1 如 何 阅读 


欢迎 来 到 Go 的 世界 ， 让 我 们 开始 探索 吧 ! 
Go 是 一 种 新 的 语言 ， 一 种 并 发 的 、 带 垃圾 回收 的 、 快 速 编译 的 语言 。 它 具有 以 下 特点 : 


@ 它 可 以 在 一 台 计 算 机 上 用 几 秒 钟 的 时 间 编 译 一 个 大 型 的 Go 程序 。 

e@ Go 为 软件 构造 提供 了 一 种 模型 ， 它 使 依赖 分 析 更 加 容易 ， 且 避免 了 大 部 分 C 风 格 include 文 件 与 库 的 开头 。 

e@ Go 是 静态 类 型 的 语言 ， 它 的 类 型 系统 没有 层级 。 因 此 用 户 不 需要 在 定义 类 型 之 间 的 关系 上 花费 时 间 ， 这 样 感觉 起 来 比 典 
型 的 面向 对 象 语言 更 轻 量 级 。 

e@ Go 完全 是 垃圾 回收 型 的 语言 ， 并 为 并 发 执行 与 通信 提供 了 基本 的 支持 。 

@ 按照 其 设计 ，Go 打 算 为 多 核 机 器 上 系统 软件 的 构造 提供 一 种 方法 。 


Go 是 一 种 编译 型 语言 ， 它 结合 了 解释 型 语言 的 游 丸 有 余 ， 动 态 类 型 语言 的 开发 效率 ， 以 及 静态 类 型 的 安全 性 。 它 也 打算 成 为 
现代 的 ， 支 持 网 络 与 多 核 计算 的 语言 。 要 满足 这 些 目 标 ， 需 要 解决 一 些 语言 上 的 问题 : 一 个 富有 表达 能 力 但 轻 量 级 的 类 型 系 
统 ， 并 发 与 垃圾 回收 机 制 ， 严 格 的 依赖 规范 等 等 。 这 些 无 法 通过 库 或 工具 解决 好 ， 因 此 Go 也 就 应 运 而 生 了 。 


在 本 章 中 ， 我 们 将 讲述 Go 的 安装 方法 ， 以 及 如 何 阅读 本 书 。 


links 


@ 目录 
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1.1 从 源 代 码 安 装 Go 


本 书面 向 的 是 已 经 对 Go 语言 有 一 定 的 经 验 ， 希 望 能 了 解 它 的 底层 机 制 的 用 户 。 因 此 ， 只 推荐 从 源 代码 安装 Go 。 


Go 源码 安装 


在 Go 的 源 代 码 中 ， 有 些 部 分 是 用 Plan 9 C 和 AT&T 汇 编写 的 ， 因 此 假如 你 要 想 从 源码 安装 ， 就 必须 安装 C 的 编译 工具 
在 Mac 系 统 中 ， 只 要 你 安装 了 Xcode， 就 已 经 包含 了 相应 的 编译 工具 


在 类 Unix 系 统 中 ， 需 要 安装 gcc 等 工具 。 例 如 Ubuntu 系统 可 通过 在 终端 中 执行 sudo apt-get install gcc libc6-dev 来 安装 编 
译 工 具 


在 Windows 系 统 中 ， 你 需要 安装 MinGW， 然 后 通过 MinGW 安 装 gcc， 并 设置 相应 的 环境 变量 


Go 使 用 Mercurial 进 行 版 本 管理 ， 首 先 你 必须 安装 了 Mercurial， 然 后 才能 下 载 。 假 设 你 已 经 安装 好 Mercurial， 执 行 如 下 代 
码 : 


假设 已 经 位 于 Go 的 安装 目录 $6co_INSTALL_DIR 下 


hg clone -u release https://code.google.com/p/go 
cd go/src 
./all.bash 


运行 all.bash 后 出 现 "ALL TESTS PASSED" 字 样 时 才 算 安装 成 功 。 
上 面 是 Unix 风 格 的 命令 ，Windows 下 的 安装 方式 类 似 ， 只 不 过 是 运行 all.bat， 调 用 的 编译 器 是 MinGW 的 gcc。 


然后 设置 几 个 环境 变量 ， 


export GOROOT=$HOME/go 
export GOBIN=$GOROOT/bin 
export PATH=$PATH :$GOBIN 


看 到 如 下 图 片 即 说 明 你 已 经 安装 成 功 


图 1.1 源码 安装 之 后 执行 Go 命令 的 图 


如 果 出 现 Go 的 Usage 人 信息， 那么 说 明 Go 已 经 安装 成 功 了 ; 如 果 出 现 该 命令 不 存在 ， 那 么 可 以 检查 一 下 自己 的 PATH 环境 变 
是 否 包含 了 Go 的 安装 目录 。 
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节 : 本 书 的 组 织 结 构 


1.2 本 书 的 组 织 结构 


第 二 章 首先 会 介绍 一 些 Go 的 基本 数据 结构 的 实现 ， 如 slice 和 map。 
会 介绍 Go 语言 中 的 函数 调用 协议 。 

第 四 章 分 析 runtime 初 始 化 过 程 。 

第 五 章 是 goroutine 的 调度 。 

第 六 章 分 析 Go 语 言 中 的 内 存 管理 。 

第 七 章 分 析 Go 语 言 中 一 些 高 级 数据 结构 的 实现 。 

第 八 章 是 网 络 封装 的 实现 

第 九 章 讲 cgo 使 用 的 一 些 技术 


第 十 章 是 其 它 一 些 杂 项 


推荐 的 阅读 方式 


本 书 的 写作 基本 上 是 按 一 个 循序 浅 近 的 过 程 。 大 多 数 章节 可 以 独立 阅读 ， 如 内 存 管 理 ，goroutine 调 度 等 。 而 某 些 知识 则 需要 
前 面 章 节 的 一 些 基 础 知识 ， 比 如 cgo 必 须 了 解 前 面子 数 调用 协议 方面 的 一 些 知识 ， 第 七 章 高 级 数据 结构 最 好 对 前 面 内 存 管 理 
和 goroutine 调 度 有 一 定 的 了 解 。 

推荐 的 阅读 方式 还 是 按 本 文章 节 顺 序 ， 如 果 读 者 已 经 有 一 定 基础 ， 也 可 以 只 挑 自己 感 兴趣 的 章节 阅读 。 

如 果 想 更 深入 的 了 解 Go 语 言 的 内 部 实现 ， 项 望 读 者 能 拿 着 Go 的 源 代 码 亲自 分 析 。 通 过 自己 学 习 研究 得 到 的 东西 才 是 理解 最 
深 的 。 


links 
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3 基本 技巧 


研究 Go 的 内 部 实现 ， 这 里 介绍 一 些 基本 的 技巧 。 


阅读 源 代 码 
语言 的 源 代码 布局 是 有 一 些 规 律 的 。 假 定 读者 在 SGOROOT 下 : 


- ./misc 一 些 工具 

- ,Vsrc 源 代码 

- ./src/cmd 命令 工具 ， 包 括 6C，61，6g 等 等 。 最 后 打包 成 go 命令 。 

- ./src/pkg 各 个 package 的 源 代码 

- ./src/pkg/runtime Go 的 runtime 包 ， 本 书 分 析 的 最 主要 的 部 分 

- ”AUTHORS 一 文件 ， 官 方 Go 语言 作者 列表 

|- CONTRIBUTORS 一 文件 ， 第 三 方 贡献 者 列表 

|- LICENSE 一 文件 ，Go 语 言 发 布 授权 协议 

|- PATENTS 一 文件 ， 专 利 

|- README 一 文件 ，README 文 件 ， 大 家 懂 的 。 提 一 下 ， 经 常 有 人 说 : Go 官网 打 不 开 啊 ， 怎 么 办 ? 其 实 ， 在 README 中 说 到 了 这 个 。 该 文件 还 提 到 ， 如 果 通 过 
二 进 制 安装 ， 需 要 设置 GOROOT 环 境 变 量 ; 人 
候 都 设置 GOROOT。 另 外 ， 确 保 $GOROOTVbin 在 PATH 目录 中 。 

|- VERSION 一 文件 ， 当 前 Go 版 本 

|- api 一 目录 ， 包 含 所 有 API 列 表 ， 方 便 IDE 使 用 

|- doc 一 目录 ，GO 语 言 的 各 种 文档 ， 官 网 上 有 的 ， 这 里 基本 会 有 ， 这 也 就 是 为 什么 说 可 以 本 地 搭建 ”官网 ”。 这 里 面 有 不 少 其 他 资源 ， 比 如 gopher 图 标 之 类 
的 。 

|- favicon.ico 一 文件 ， 官 网 1ogo 

|- include 一 目录 ，GO 基本 工具 依赖 的 库 的 头 文件 

|- lib 一 目录 ， 文 档 模板 

|- misc 一 目录 ， 其 他 的 一 些 工 具 ， 相 当 于 大 杂烩 ， 大 部 分 是 各 种 编辑 器 的 Go 语言 支持 ， 还 有 cgo 的 例子 等 

|- robots.txt 一 文件 ， 搜 索引 擎 robots 文 件 

|- src 一 目录 ，Go 语 言 源码 : 基本 工具 (编译 器 等 ) 、 标 准 库 

`- test 一 目录 ， 包 含 很 多 测试 程序 (并非 _test,go 方 式 的 单元 测试 ， 而 是 包含 main 包 的 测试 ) ， 包 括 一 些 fixbug 测 试 。 可 以 通过 这 个 学 到 一 些 特性 的 使 


学 习 Go 语 言 的 内 部 实现 ， 主 要 依靠 对 源 代 码 的 分 析 ， 所 以 阅读 源 代码 是 很 好 的 方式 。linus 谈 到 如 何 学 习 Linux 内 核 时 也 说 
过 "Read the F**ing Source code"。 


使 用 调试 器 
通过 gdb 下 断 点 ， 跟 踪 程 序 的 行为 。 调 试 跟 代 码 的 方式 是 源 代码 阅读 的 一 种 辅助 手段 。 
用 户 代码 入 口 是 在 main.main，runtime 库 中 的 函数 可 以 通过 runtime.XXX 断 点 捕获 。 比 如 写 一 个 test.go : 


package main 


import ( 
nfmt" 


func main() { 
fmt.Println("hello world!") 


编译 ， 调 试 


go build test.go 
gdb test 


可 以 在 main.main 处 下 断 点 ， 单 步 执行 ， 你 会 发 现 进入 了 AL 函数 。 这 个 就 是 由 于 fmt.Println 接 受 的 是 一 
个 interface， 而 传 入 的 是 一 个 string， 这 里 会 做 一 个 转换 。 以 这 个 为 一 个 突破 点 去 跟 代码 ， 就 可 以 研究 Go 语言 中 具体 类 型 如 
何 转 为 jinterface 抽 象 类 型 。 

2 > 四 > /AL 
分 析 生 成 的 汇编 代码 
有 时 候 分 析 会 需要 研究 生成 的 汇编 代码 ， 这 里 介绍 生成 汇编 代码 的 方法 。 


go tool 6g -S hello.go 


-S 参 数 表 示 打 印 出 汇编 代码 ， 更 多 参数 可 以 通过 -h 参 数 查看 。 


go tool 6g -h 


或 者 可 以 反 汇 编 生 成 的 可 执行 文件 : 


go build test.go 
go tool 61 -a test | less 


本 机 是 amd64 的 机 器 ， 如 果 是 ij386 的 机 器 ， 则 命令 是 8g 


需要 注意 的 是 用 6g 的 -S 生 成 的 汇编 代码 和 6| -a 生 成 的 反 汇 编 代 码 是 不 太一 样 的 。 前 者 是 直接 对 源 代码 进行 汇编 ， 后 者 是 对 可 
执行 文件 进行 反 汇 编 。 在 6| 进 行 链接 过 程 中 ， 可 能 会 在 原 汇 编 文 件 基础 上 插入 新 的 指令 。 所 以 6| 反 汇编 出 来 的 是 最 接近 监 实 代 
码 的 。 

不 过 Go 的 汇编 语法 跟 常 用 的 有 点 不 太一 致 ， 可 能 读 起 来 会 不 大 习惯。 还 有 另 一 种 方式 ， 就 是 在 用 gdb 调 试 的 过 程 中 查看 汇 


编 。 


gdb test 
b main.main 
disas 
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书 的 组 织 结 构 
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a 


2 基本 数据 结构 


这 一 章 中 我 们 将 看 一 下 基本 的 数据 结构 ， 都 是 GO 语言 内 置 的 类 型 。 这 些 知 识 很 基础 ， 但 是 理解 它们 非常 重要 。 


我 们 将 从 最 基本 的 类 型 开始 ，Go 语 言 的 基本 类 型 部 分 跟 C 语 言 很 类 似 ， 熟 习 C 语 言 的 朋友 们 应 该 不 会 陌生 。 我 们 也 将 对 slice 
和 map 的 实现 一 寅 究竟 。 看 完 这 章 ， 你 会 知道 slice 不 是 一 个 指针 ， 它 在 栈 中 是 占 三 个 机 器 字 节 的 。 


好 吧 ， 让 我 们 开始 吧 | 


2.1 基本 类 型 


向 新 手 介绍 Go 语言 时 ， 解 释 一 下 Go 中 各 种 类 型 变量 在 内 存 中 的 布局 通常 有 利于 帮助 他 们 加 深 理 解 。 
先 看 一 些 基础 的 例子 : 
1 := 1234 


[1234 | int 


] := int32(C1) 


int32 


f := float32(3.14) 


float32 
bytes w= [Sbyted hs “es 1 me 0 
hlel) ol [5Jbyte 


primes := [4]int{2,3,5,7} 
[4]int 
变量 i 属于 类 型 int， 在 内 存 中 用 一 个 32 位 字 长 (Word) 表 示 。(32 位 内 存 布 局 方式 ) 


变量 j 由 于 做 了 精确 的 转换 ， 属 于 int32 类 型 。 尽 管 和 j 有 着 相同 的 内 存 布局 ， 但 是 它们 属于 不 同 的 类 型 : 赋值 操作 i = j 是 一 
种 类 型 错误 ， 必 须 写成 更 精确 的 转换 方式 : i = int(j) 。 


变量 f 属 于 float 类 型 ，Go 语 言 当 前 使 用 32 位 浮 点 型 值 表示 (float32)。 它 与 int32 很 像 ， 但 是 内 部 实现 不 同 。 


接 下 来 ， 变 量 bytes 的 类 型 是 [5]byte， 一 个 由 5 个 字 节 组 成 的 数组 。 它 的 内 存 表示 就 是 连 起 来 的 5 个 字 节 ， 就 像 C 的 数组 。 类 似 
地 ， 变 量 primes 是 4 个 int 的 数组 。 


结构 体 和 指针 
与 C 相 同 而 与 Java 不 同 的 是 ，Go 语 言 让 程序 员 决定 何 时 使 用 指针 。 举 合 来 说 ， 这 种 类 型 定义 : 


typeiPoipt StFUGCE ~{t Xe Yint 小 


先 来 定义 一 个 简单 的 struct 类 型 ， 名 为 Point， 表 示 内 存 中 两 个 相 邻 的 整数 。 
p := Point{10, 20} 


Point 


pp := &Point{10, 20} 





point{f16,26} 表示 一 个 已 初始 化 的 Point 类 型 。 对 它 进行 取 地 址 表示 一 个 指向 刚刚 分 配 和 初始 化 的 Point 类 型 的 指针 。 前 者 在 
内 存 中 是 两 个 词 ， 而 后 者 是 一 个 指向 两 个 词 的 指针 。 


结构 体 的 域 在 内 存 中 是 紧 挨 着 排列 的 。 


type Rect1 struct { Min, Max Point } 
type Rect2 struct { Min, Max *Point } 


rl := Rectl{Point{l0, 20}, Point{50, 60}} 


| 10 | 20 | 50 | 60 | Rectl 


r2 := Rect2{&Point{10, 20}, &Point{50, 60}} 





Rect1 是 一 个 具有 两 个 Point 类 型 属性 的 结构 体 ， 由 在 一 行 的 两 个 Point-- 四 个 int 代 表 。Rect2 是 一 个 具有 两 个 *point 类 型 属性 
的 结构 体 ， 由 两 个 *Point 表 示 。 

使 用 过 C 的 程序 员 可 能 对 point 和 *point 的 不 同 毫 不 见怪 ， 但 用 惯 Java 或 Python 的 程序 员 们 可 能 就 不 那么 轻松 了 。Go 语 言 
给 了 程序 员 基 本 内 存 层面 的 控制 ， 由 此 提供 了 诸多 能 力 ， 如 控制 给 定数 据 结构 集合 的 总 大 小 、 内 存 分 配 的 次 数 、 内 存 访问 模 
式 以 及 建立 优秀 系统 的 所 有 要 点 。 


>> 全 
字符 事 
有 了 前 面 的 准备 ， 我们 就 可 以 开始 研究 更 有 趣 的 数据 类 型 了 。 


s := "hello" 


。 string 


PIT en 
leiTio CsJbyte 


t := s[2:34 


| string 


(灰色 的 箭头 表示 已 经 实现 的 但 不 能 直接 可 见 的 指针 ) 


字符 串 在 Go 语言 内 存 模型 中 用 一 个 2 字 长 的 数据 结构 表示 。 它 包含 一 个 指向 字符 串 存储 数据 的 指针 和 一 个 长 度数 据 。 因 为 
string 类 型 是 不 可 变 的 ， 对 于 多 字符 串 共 享 同一 个 存储 数据 是 安全 的 。 切 分 操作 str[i:j] 会 得 到 一 个 新 的 2 字 长 结构 ， 一 个 可 
能 不 同 的 但 仍 指向 同一 个 字 节 序列 ( 即 上 文 说 的 存储 数据 ) 的 指针 和 长 度数 据 。 这 意味 着 字符 串 切 分 可 以 在 不 涉及 内 存 分 配 或 
复制 操作 。 这 使 得 字符 串 切 分 的 效率 等 同 于 传递 下 标 。 

(说 句 题 外 话 ， 在 Java 和 其 他 语言 里 有 一 个 有 名 的 "疑难 杂 症 " : 在 你 分 割 字符 串 并 保存 时 ， 对 于 源 字符 串 的 引用 在 内 存 中 仍 
然 保存 着 完整 的 原始 字符 串 - 即 使 只 有 一 小 部 分 仍 被 需要 ，Go 也 有 这 个 "毛病 *。 另 一 方面 ， 我 们 努力 但 又 失败 了 的 是 ， 让 字 
符 串 分 割 操作 变 得 部 贵 -包含 一 次 分 配 和 一 次 复制 。 在 大 多 数 程序 中 都 避免 了 这 么 做 。) 


links 

@ 目录 

@ 上 一 节 : 基本 数据 结构 
e@e 下 一 节 : slice 


2.2 slice 


一 个 slice 是 一 个 数组 某 个 部 分 的 引用 。 在 内 存 中 ， 它 是 一 个 包含 3 个 域 的 结构 体 : 指向 slice 中 第 一 个 元 素 的 指针 ，slice 的 长 
度 ， 以 及 slice 的 容量 。 长 度 是 下 标 操作 的 上 界 ， 如 x[i] 中 ji 必须 小 于 长 度 。 容 量 是 分 割 操作 的 上 界 ， 如 x[ij] 中 j 不 能 大 于 容量 。 
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数组 的 slice 并 不 会 实际 复制 一 份 数据 ， 它 只 是 创建 一 个 新 的 数据 结构 ， 包 含 了 另外 的 一 个 指针 ， 一 个 长 度 和 一 个 容量 数据 。 
如 同 分 割 一 个 字符 囊 ， 分 割 数组 也 不 涉及 复制 操作 : 它 只 是 新 建 了 一 个 结构 来 放置 一 个 不 同 的 指针 ， 长 度 和 容量 。 在 例子 
中 ， 对 []int{2,3,5,7,11} 求 值 操作 会 创建 一 个 包含 五 个 值 的 数组 ， 并 设置 x 的 属性 来 描述 这 个 数组 。 分 割 表达 式 x[1:3] 并 
不 分 配 更 多 的 数据 : 它 只 是 写 了 一 个 新 的 slice 结 构 的 属性 来 引用 相同 的 存储 数据 。 在 例子 中 ， 长 度 为 2-- 只 有 y[0] 和 y[1] 是 有 效 
的 索引 ， 但 是 容量 为 4--y[0:4] 是 一 个 有 效 的 分 割 表 达 式 。 


由 于 slice 是 不 同 于 指针 的 多 字 长 结构 ， 分 割 操作 并 不 需要 分 配 内 存 ， 其 至 没有 通常 被 保存 在 堆 中 的 slice 头 部 。 这 种 表示 方法 
使 slice 操 作 和 在 C 中 传递 指针 、 长 度 对 一 样 廉价 。Go 语 言 最 初 使 用 一 个 指向 以 上 结构 的 指针 来 表示 slice， 但 是 这 样 做 意味 着 
每 个 slice 操 作 都 会 分 配 一 块 新 的 内 存 对 象 。 即 使 使 用 了 快速 的 分 配器 ， 还 是 给 垃圾 收集 器 制造 了 很 多 没有 必要 的 工作 。 移 除 
间接 引用 及 分 配 操作 可 以 让 slice 足 够 廉价 ， 以 避免 传递 显 式 索引 。 


上 > 
slice 的 扩容 
其 实 slice 在 Go 的 运行 时 库 中 就 是 一 个 C 语 言 动 态 数 组 的 实现 ， 在 $GOROOT/src/pkg/runtime/runtime.h 中 可 以 看 到 它 的 定 
SA 
struct Slice 
| // must not move anything 
byte* array; // actual data 
uintgo len; // number of elements 
uintgo cap; // allocated number of elements 
}; 


在 对 slice 进 行 append 等 操作 时 ， 可 能 会 造成 slice 的 自动 扩容 。 其 扩容 时 的 大 小 增长 规则 是 : 


e@ 如 果 新 的 大 小 是 当前 大 小 2 倍 以 上 ， 则 大 小 增长 为 新 大 小 
e@ 否则 循环 以 下 操作 : 如 果 当 前 大 小 小 于 1024， 按 每 次 2 倍增 长 ， 否 则 每 次 按 当前 大 小 1/4 增 长 。 直 到 增长 的 大 小 超过 或 等 
于 新 大 小 。 


make 和 new 


Go 有 两 个 数据 结构 创建 函数 : new 和 make。 两 者 的 区 别 在 学 习 Go 语 言 的 初期 是 一 个 常见 的 混淆 点 。 基 本 的 区 别 是 new(T) 返 
回 一 个 *T ， 返 回 的 这 个 指针 可 以 被 隐 式 地 消除 引用 (图 中 的 黑色 箭头 ) 。 而 make(T，args) 返回 一 个 普通 的 T。 通 常情 况 

下 ，T 内 部 有 一 些 隐 式 的 指针 (图 中 的 灰色 箭头 ) 。 一 和 句 话 ，new 返 回 一 个 指向 已 清 零 内 存 的 指针 ， 而 make 返 回 一 个 复杂 的 
结构 。 


new(Point) 





new(Rect]1) 


| ~ | *Rectl 
ToToToleect 


new(Rect2) 


| ~、 | *Rect2 


new([]int) 





make([]int, 0) 


Dint 


| [olint 


make([]Jint, 2, 5) 


Dint 
0o|10|0 10o ooint 


有 一 种 方法 可 以 统一 这 两 种 创建 方式 ， 但 是 可 能 会 与 C/C++ 的 传统 有 显著 不 同 : 定义 make(*T) 来 返回 一 个 指向 新 分 配 的 T 的 
指针 ， 这 样 一 来 ，new(Point) 得 写成 make(*Point)。 但 这 样 做 实在 是 和 人 们 期 望 的 分 配 函 数 太 不 一 样 了 ， 所 以 Go 没有 采用 这 
种 设计 。 


slice 与 unsafe.Pointer 相 互 转换 


有 时 候 可 能 需要 使 用 一 些 比 较 tricky 的 技巧 ， 比 如 利用 make 弄 一 块 内 存 自己 管理 ， 或 者 用 cgo 之 类 的 方式 得 到 的 内 存 ， 转 换 为 
Go 类 型 使 用 。 


从 slice 中 得 到 一 块 内 存 地址 是 很 容易 的 : 


s := make([]byte，200) 
ptr := unsafe.Pointer(&s[0]) 


从 一 个 内 存 指针 构造 出 Go 语言 的 slice 结 构 相 对 麻烦 一 些 ， 比 如 其 中 一 种 方式 : 


var ptr unsafe.Pointer 
s := ((*[1<<10]byte)(ptr))[:200] 


先 将 ptr 强制 类 型 转换 为 另 一 种 指针 ， 一 个 指向 [1<<16]byte 数组 的 指针 ， 这 里 数组 大 小 其 实 是 假 的 。 然 后 用 slice 操 作 取 出 
这 个 数组 的 前 200 个 ， 于 是 s 就 是 一 个 200 个 元 素 的 slice 。 


或 者 这 种 方式 : 


var ptr unsafe.Pointer 
var si = Struct { 
addr uintptr 
len int 
cap int 
}{ptr, length, length} 
s := *(*[]byte)(unsafe.Pointer(&s1)) 


把 slice 的 底层 结构 写 出 来 ， 将 addr，len，cap 等 字段 写 进去 ， 将 这 个 结构 体 赋 给 s$。 相 比 上 一 种 写法 ， 这 种 更 好 的 地 方 在 于 
cap 更 加 自然 ， 虽 然 上 面 写法 中 实际 上 1<<10 就 是 cap。 


或 者 使 用 reflect.SliceHeader 的 方式 来 构造 slice， 比 较 推 荐 这 种 做 法 : 


var 0 []byte 

sliceHeader := (*reflect.SliceHeader)((unsafe.Pointer(&o0))) 
sliceHeader .Cap = length 

sliceHeader .Len = length 

sliceHeader .Data = uintptr(ptr) 


links 
e@ 目录 
e@ 上 一 节 : 基本 类 型 
e@ 下 一 节 : map 的 实现 


2.3 map 的 实现 


Go 中 的 map 在 底层 是 用 哈 希 表 实 现 的 ， 你 可 以 在 $GOROOT/src/pkg/runtime/hashmap.goc 找到 它 的 实现 。 


数据 结构 
哈 希 表 的 数据 结构 中 一 些 关键 的 域 如 下 所 示 : 


struct Hmap 


{ 

uint8  B; // 可 以 容纳 2AB 个 项 

uint16 bucketsize;  // 每 个 桶 的 大 小 

byte xbuckets // 2^B 个 Buckets 的 数组 

byte *oldbuckets; // 前 一 个 buckets， 只 有 当 正在 扩容 时 才 不 为 空 
}; 


上 面 给 出 的 结构 体 只 是 Hmap 的 部 分 的 域 。 需 要 注意 到 的 是 ， 这 里 直接 使 用 的 是 Bucket 的 数组 ， 而 不 是 Bucket* 指 针 的 数组 。 
这 意味 着 ， 第 一 个 Bucket 和 后 面 溢 出 链 的 Bucket 分 配 有 些 不 同 。 第 一 个 Bucket 是 用 的 一 段 连 续 的 内 存 空间 ， 而 后 面 溢 出 链 的 
Bucket 的 空间 是 使 用 mallocgc 分 配 的 。 


这 个 hash 结 构 使 用 的 是 一 个 可 扩展 哈 希 的 算法 ， 由 hash 值 mod 当 前 hash 表 大 小 决定 某 一 个 值 属于 哪个 桶 ， 而 hash 表 大 小 是 2 
的 指数 ， 即 上 面 结构 体 中 的 2AB。 每 次 扩容 ， 会 增 大 到 上 次 大 小 的 两 倍 。 结 构 体 中 有 一 个 buckets 和 一 个 oldbuckets 是 用 来 实 
现 增 量 扩容 的 。 正 常情 况 下 直接 使 用 buckets， 而 oldbuckets 为 室 。 如 果 当 前 哈 希 表 正 在 扩容 中 ， 则 oldbuckets 不 为 室 ， 并 且 
buckets 大 小 是 oldbuckets 大 小 的 两 倍 。 


具体 的 Bucket 结 构 如 下 所 示 : 


struct Bucket 


{ 
uint8 tophash[BUCKETSIZE]; // hash 值 的 高 8 位 ,., .低位 从 bucket 的 array 定 位 到 bucket 
Bucket *overflow; // 溢出 桶 链表 ， 如 果 有 
byte data[1]; // BUCKETSIZE keys followed by BUCKETSIZE values 
}; 


其 中 BUCKETSIZE 是 用 宏 定义 的 8， 每 个 bucket 中 存放 最 多 8 个 key/value 对 , 如 果 多 于 8 个 ， 那 么 会 申请 一 个 新 的 bucket， 并 
将 它 与 之 前 的 bucket 链 起 来 。 


按 key 的 类 型 采用 相应 的 hash 算 法 得 到 key 的 hash 值 。 将 hash 值 的 低位 当 作 Hmap 结 构 体 中 buckets 数 组 的 index， 找 到 key 所 
在 的 bucket。 将 hash 的 高 8 位 存储 在 了 bucket 的 tophash 中 。 注 意 ， 这 里 高 8 位 不 是 用 来 当 作 key/value 在 bucket 内 部 的 offset 
的 ， 而 是 作为 一 个 主键 ， 在 查找 时 对 tophash 数 组 的 每 一 项 进行 顺序 匹配 的 。 先 比较 hash 值 高 位 与 bucket 的 tophashfi] 是 否 相 
等 ， 如 果 相 等 则 再 比较 bucket 的 第 i 个 的 key 与 所 给 的 key 是 否 相等 。 如 果 相 等 ， 则 返回 其 对 应 的 value， 反 之 ， 在 overflow 
buckets 中 按照 上 述 方法 继续 寻找 。 


整个 hash 的 存储 如 下 图 所 示 ( 临 时 先 采 用 了 XX 同 学 画 的 图 ， 这 个 图 有 点 问题 ) : 


图 2.2 HMap 的 存储 结构 


注意 一 个 细节 是 Bucket 中 key/value 的 放置 顺序 ， 是 将 keys 放 在 一 起 ，values 放 在 一 起 ， 为 什么 不 将 key 和 对 应 的 value 放 在 一 
起 呢 ? 如 果 那 么 做 ， 存 储 结构 将 key val valyee 设想 如 果 是 这 样 的 一 个 maplint64]int8， 考 虑 到 字 节 对 齐 ， 会 
浪费 很 多 存储 空间 。 不 得 不 说 通过 上 述 的 一 个 小 细节 ， 可 以 看 出 Go 在 设计 上 的 深思 熟 虑 。 


增 量 扩容 


大 家 都 知道 哈 希 表 表 就 是 以 空间 换 时 间 ， 访 问 速 度 是 直接 跟 填充 因子 相关 的 ， 所 以 当 哈 希 表 太 满 之 后 就 需要 进行 扩容 。 


克 林 和 人 前 全 全 利和 人 全 全 生生 全 隐伏 人才 和 有 村 人 从 入 全 和 人 作用 让 人 咱们 靖 信 区 作 为 2 的 指数 
倍 ， 则 有 (hash mod 2^B) 等 价 于 (hash & (2^B-1))。 这 样 可 以 简化 运算 ， 避 免 了 取 余 操 作 。 


假设 扩容 之 前 容量 为 X， 扩 容 之 后 容量 为 Y， 对 于 某 个 哈 希 值 hash， 一 般 情 况 下 (hash mod X) 不 等 于 (hash mod Y)， 所 以 扩容 
之 后 要 重新 计算 每 一 项 在 哈 希 表 中 的 新 位 置 。 当 hash 表 扩容 之 后 ， 需 要 将 那些 日 的 pair 重 新 哈 希 到 新 的 table 上 ( 源 代码 中 称 之 
为 evacuate) ， 这 个 工作 并 没有 在 扩容 之 后 一 次 性 完成 ， 而 是 逐步 的 完成 (在 insert 和 remove 时 每 次 搬移 1-2 个 pair) ，Go 语 
言 使 用 的 是 增 量 扩容 。 


为 什么 会 增 量 扩容 呢 ? 主要 是 缩短 map 容 器 的 响应 时 间 。 假 如 我 们 直接 将 map 用 作 某 个 响应 实时 性 要 求 非 常 高 的 web 应 用 存 
储 ， 如 果 不 采用 增 量 扩容 ， 当 map 里 面 存 储 的 元 素 很 多 之 后 ， 扩 容 时 系统 就 会 卡 往 ， 叶 致 较 长 一 段 时 间 内 无 法 响应 请 求 。 不 
过 增 量 扩容 本 质 上 还 是 将 总 的 扩容 时 间 分 挫 到 了 每 一 次 哈 希 操作 上 面 。 


扩容 会 建立 一 个 大 小 是 原来 2 倍 的 新 的 表 ， 将 昌 的 bucket 搬 到 新 的 表 中 之 后 ， 并 不 会 将 昌 的 bucket 从 oldbucket 中 删除 ， 而 是 
加 上 一 个 已 删除 的 标记 。 


正 是 由 于 这 个 工作 是 逐渐 完成 的 ， 这 样 就 会 导致 一 部 分 数据 在 old table 中 ， 一 部 分 在 new table 中 ， 所 以 对 于 hash table 的 
insert, remove, lookup 操 作 的 处 理 逻 辑 产 生 影 响 。 只 有 当 所 有 的 bucket 都 从 上 虽 表 移 到 新 表 之 后 ， 才 会 将 oldbucket 释 放 掉 。 


扩容 的 填充 因子 是 多 少 呢 ? 如 果 grow 的 太 频 繁 ， 会 造成 空间 的 利用 率 很 低 ， 如 果 很 久 才 grow， 会 形成 很 多 的 overflow 
buckets， 查 找 的 效率 也 会 下 降 。 这 个 平衡 点 如 何 选取 呢 (在 go 中 ， 这 个 平衡 点 是 有 一 个 宏 控制 的 (#define LOAD 6.5)， a 
思 是 这 样 的 ， 如 果 table 中 元 素 的 个 数 大 于 table 中 能 容纳 的 元 素 的 个 数 ， 那 么 就 触发 一 次 grow 动 作 。 那 么 这 个 6.5 是 怎么 得 到 
的 呢 ? 原来 这 个 值 来 源 于 作者 的 一 个 测 斌 程序， 遗憾 的 是 没 能 找到 相关 的 源码 ， 不 过 作者 给 出 了 测试 的 结果 : 


LOAD %overflow bytes/entry hitprobe missprobe 
4.00 2 20577 3.00 4.00 
4.50 4.05 a 330529 4.50 
5.00 6.85 14.77 | 90 
5.50 10 D3 12.94 3 SS 
6.00 a a ee 4.00 6.00 
0508 20.90 二 人 ZE 4.25 85 
1 27.14 O45 4.50 7.00 
To 34.03 gr3 4.75 71750 
8.00 41.10 9.40 5.00 8.00 
%overflow = percentage of buckets which have an overflow bucket 
bytes/entry = overhead bytes used per key/value pair 
hitprobe = # of entries to check when looking up a present key 
missprobe =# of entries to check when looking up an absent key 


可 以 看 出 作者 取 了 一 个 相对 适中 的 值 。 


查找 过 程 


1. 根据 key 计 算出 hash 值 。 

2. 如 果 存 在 old table, 首先 在 old table 中 查找 ， 如 果 找 到 的 bucket 已 经 evacuated， 转 到 步骤 93。 反之， 返回 其 对 应 的 
Value。 

3. 在 new table 中 查找 对 应 的 value。 


这 里 一 个 细节 需要 注意 一 下 。 不 认 丰 看 可 能 会 以 为 低位 用 于 定位 bucket 在 数组 的 index， 那 么 高 位 就 是 用 于 key/valule 在 
bucket 内 部 的 offset。 事 实 上 高 8 位 不 是 用 作 offset 的 ， 而 是 用 于 加 快 key 的 比较 的 。 


do { // 对 每 个 桶 b 
// 依 次 比较 桶 内 的 每 一 项 存放 的 tophash 与 所 求 的 hash 值 高 位 是 否 相等 
for(i = 0, k = b->data, v = k + h->keysize * BUCKETSIZE; i < BUCKETSIZE; i++, Kk += h->keysize, v += h->valuesize) 
{ 
if(b->tophash[i] == top) { 
k2 = IK(h, k); 
t->key->alg->equal(&eq, t->key->size, key, Kk2); 
if(eq) { // 相 等 的 情况 下 再 去 做 key 比 较 ,.， 
*keyp = k2; 
return IV(h, v); 


上 
b = b->overflow; //b 设 置 为 它 的 下 一 下 溢出 链 
} while(b != nil); 


插入 过 程 分 析 


根据 key 算 出 hash 值 ， 进 而 得 出 对 应 的 bucket 。 

如 果 bucket 在 old table 中 ， 将 其 重新 散 列 到 new table 中 。 

在 bucket 中 ， 查 找 空闲 的 位 置 ， 如 果 已 经 存在 需要 插入 的 key， 更 新 其 对 应 的 value。 
根据 table 中 元 素 的 个 数 ， 判 断 是 否 grow table 。 

如 果 对 应 的 bucket 已 经 full， 重 新 申请 新 的 bucket 作 为 overbucket 。 

将 key/value pair 揪 入 到 bucket 中 。 


了 own 一 


这 里 也 有 几 个 细节 需要 注意 一 下 。 


在 扩容 过 程 中 ，oldbucket 是 被 冻结 的 ， 查 找 时 会 在 oldbucket 中 查找 ， 但 不 会 在 oldbucket 中 插入 数据 。 如 果 在 oldbucket 是 找 
到 了 相应 的 key， 做 法 是 将 它 迁 移 到 新 bucket 后 加 入 evalucated 标 记 。 并 且 还 会 额外 的 迁移 另 一 个 pair。 


然后 就 是 只 要 在 某 个 bucket 中 找到 第 一 个 空位 ， 就 会 将 key/value 揪 入 到 这 个 位 置 。 也 就 是 位 置 位 于 bucket 前 面 的 会 覆盖 后 面 
的 (类 似 于 存储 系统 设计 中 做 删除 时 的 常用 的 技巧 之 一 ， 直 接 用 新 数据 追加 方式 写 ， 新 版 本 数据 履 盖 老 版 本 数据 )。 找 到 了 相 
同 的 key 或 者 找到 第 一 个 空位 就 可 以 结束 遍历 了 。 不 过 这 也 意味 着 做 删除 时 必须 完全 的 遍历 bucket 所 有 溢出 链 ， 将 所 有 的 相同 
key 数 据 都 删除 。 所 以 目前 map 的 设计 是 为 插入 而 优化 的 ， 删 除 效率 会 比 插入 低 一 些 。 


map 设 计 中 的 性 能 优化 


读 完 map 源 代码 发 现 作者 还 是 做 了 很 多 设计 上 的 选择 的 。 本 人 水 平 有 限 ， 谈 不 上 优 劣 的 点 评 ， 这 里 只 是 拿 出 来 与 读者 分 享 


HMap 中 是 Bucket 的 数组 ， 而 不 是 Bucket 指 针 的 数组 。 好 的 方面 是 可 以 一 次 分 配 较 大 内 存 ， 减 少 了 分 配 次 数 ， 避 免 多 次 调用 
mallocgc。 但 相应 的 缺点 ， 其 一 是 可 扩展 哈 希 的 算法 并 没有 发 生 作 用 ， 扩 容 时 会 
Bucket 指 针 的 数组 就 是 指针 找 贝 了 ， 代 价 小 很 多 )。 其 二 是 首 个 bucket 与 后 面 产生 了 不 一 致 性 。 这 个 会 使 删除 逮 辑 变 得 复杂 一 
点 。 比 如 删除 后 面 的 溢出 链 可 以 直接 删除 ， 而 对 于 首 个 bucket， 要 等 到 evalucated 完 毕 后 ， En 余 时 进行 


没有 重用 设 freelist 重 用 删除 的 结 点 。 作 者 把 这 个 加 了 一 个 TODO 的 注释 ， 不 过 想 了 一 下 觉得 这 个 做 的 意义 不 大 。 因 为 一 方 
面 ，bucket 大 小 并 不 一 致 ， 重 用 比较 麻烦 。 另 一 方面 ， 下层 存储 已 经 做 过 内 存 池 的 实现 了 ， 所 以 这 里 不 做 重用 也 会 在 内 存 分 
配 那 一 层 被 重用 的 ， 





bucket 直 接 key/value 和 间接 key/value 优 化 。 这 个 优化 做 得 变 好 的 。 注 意 看 代码 会 发 现 ， 如 果 key 或 value 小 于 128 字 节 ， 则 它 
们 的 值 是 直接 使 用 的 bucket 作 为 存储 的 。 否 则 bucket 中 存储 的 是 指向 实际 key/value 数 据 的 指针 ， 


bucket 存 8 个 key/value 对 。 查 找 时 进行 顺序 比较 。 第 一 次 发 现 高 位 居然 不 是 用 作 offset， 而 是 用 于 加 快 比较 的 。 定 位 到 bucket 
之 后 ， 居 然 是 一 个 顺序 比较 的 查找 过 程 。 后 面 仔细 想 了 想 ， 觉 得 还 行 。 由 于 bucket 只 有 8 个 ， 顺 序 比 较 下 来 也 不 算 过 分 。 仍 然 
是 O(1) 只 不 过 前 面 系数 大 一 点 点 罢了 。 相 当 于 hash 到 一 个 小 范围 之 后 ， 在 这 个 小 范围 内 顺序 查找 。 


插入 删除 的 优化 。 前 面 已 经 提 过 了 ， 插 入 只 要 找到 相同 的 key 或 者 第 一 个 空位 ，bucket 中 如 果 存在 一 个 以 上 的 相同 Key， 前 面 
履 盖 后 面 的 (只 是 如 果 ， 实 际 上 不 会 发 生 )。 而 删除 就 需要 遍历 完 所 有 bucket 溢 出 链 了 。 这 样 map 的 设计 就 是 为 插入 优化 的 。 考 
上 谍 到 一 般 的 应 用 场景 ， 这 个 应 该 算是 很 合理 的 。 


作者 还 列 了 另 个 2 个 TODO : 将 多 个 几乎 要 empty 的 bucket 合 并 ; 如 果 table 中 元 素 很 少 ， 考虑 shrink table。( 毕 竞 现在 的 实现 
只 是 单纯 的 grow)。 


2.4 nil 的 语义 
什么 ?nil 是 一 种 数据 结构 么 ?为 什么 会 讲 到 它 ， 没 搞 错 吧 ? 没 搞 错 。 不 仅仅 是 Go 语言 中 ， 每 门 语言 中 nil 都 是 非常 重要 的 ， 它 
代表 的 是 空 值 的 语义 。 


在 不 同 语言 中 ， 表 示 空 这 个 概念 都 有 细微 不 同 。 比 如 在 Scheme 语言 (一 种 lisp 方 言 ) 中 ，nil 是 true 的 ! 而 在 ruby 语 言 中 ， 一 切 都 
是 对 象 ， 连 nil 也 是 一 个 对 象 ! 在 C 中 NULL 跟 0 是 等 价 的 。 


按照 Go 语言 规范 ， 任 何 类 型 在 未 初始 化 时 都 对 应 一 个 零 值 : 布尔 类 型 是 false， 整 型 是 0， 字 符 串 是 "%， 而 指针 ， 函 数 ， 
interface，slice，channel 和 map 的 零 值 都 是 nil。 


interface 


一 个 interface 在 没有 进行 初始 化 时 ， 对 应 的 值 是 nil。 也 就 是 说 var v interface{} ， 


此 时 Vv 就 是 一 个 nil。 在 底层 存储 上 ， 它 是 一 个 空 指 针 。 与 之 不 同 的 情况 是 ，interface 值 为 室 。 比 如 : 


Var V *T 
var i interface{} 
i=v 


此 时 i 是 一 个 interface， 它 的 值 是 nil， 但 它 自身 不 为 nil 。 


Go 中 的 error 其 实 就 是 一 个 实现 了 Error 方 法 的 接口 : 


type error interface { 
Erropt string 


} 


因此 ， 我 们 可 以 自 定义 一 个 error : 


type Error struct { 
errCode uint8 
} 
func (te Error} Error() string et 
switch e.errCode { 


case 1: 

return "file not found" 
case 2: 

return "time out" 
case 3: 


return "permission denied" 
default: 
return "unknown error" 


} 


如 果 我 们 这 样 使 用 它 : 


func checkError(err error) { 
if err != nil { 
panic(err) 
由 
由 


var e *Error 
checkError(e) 


e 是 nil 的 ， 但 是 当 我 们 checkError 时 就 会 panic。 请 读者 思考 一 下 为 什么 ? 


总 之 ，interface 跟 C 语 言 的 指针 一 样 非常 灵活 ， 关 于 空 的 语义 ， 也 跟 空 指针 一 样 容易 困扰 新 手 的 ， 需 要 注意 。 


string 和 slice 


string 的 空 值 是 "， 它 是 不 能 跟 nil 比 较 的 。 即 使 是 空 的 string， 它 的 大 小 也 是 两 个 机 器 字 长 的 。slice 也 类 似 ， 它 的 空 值 并 不 是 
一 个 空 指针 ， 而 是 结构 体 中 的 指针 域 为 室 ， 空 的 slice 的 大 小 也 是 三 个 机 器 字 长 的 。 


channel 和 map 


channel 跟 string 或 slice 有 些 不 同 ， 它 在 栈 上 只 是 一 个 指针 ， 实 际 的 数据 都 是 由 指针 所 指向 的 堆 上 面 。 


跟 channel 相 关 的 操作 有 : 初始 化 / 读 / 写 /关闭 。channel 未 初始 化 值 就 是 nil， 未 初始 化 的 channel 是 不 能 使 用 的 。 下 面 是 一 些 操 
作 规 则 : 

@ 读 或 者 写 一 个 nil 的 channel 的 操作 会 永远 阻塞 。 

@ 读 一 个 关闭 的 channel 会 立刻 返回 一 个 channel 元 素 类 型 的 零 值 。 


e@ 写 一 个 关闭 的 channel 会 导致 panic。 


map 也 是 指针 ， 实 际 数据 在 堆 中 ， 未 初始 化 的 值 是 nil 。 
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3 函数 调用 协议 


理解 Go 的 函数 调用 协议 对 于 研究 其 内 部 实现 非常 重要 。 这 里 将 会 介绍 Go 进行 函数 调用 时 的 内 存 布局 ， 参 数 传递 和 返回 值 的 
约定 。 正 如 C 和 汇编 都 是 同一 套 约 定 所 以 能 相互 调用 一 样 ，Go 和 C 以 及 汇编 也 是 要 满足 某 些 约定 才能 够 相互 调用 。 





本 章 先 从 Go 调用 C 和 汇编 的 例子 开始 ( 非 cgo 方 式 )， 通 过 分 析 其 实现 学 习 Go 的 函数 调用 协议 。 然 后 将 会 研究 go 和 defer 关 键 字 
等 神奇 的 魔法 。 接 着 会 研究 连续 栈 的 实现 ， 最 后 看 一 下 闭 包 。 

这 一 章 的 内 容 将 是 后 面 研究 cgo，goroutine 实 现 的 基础 。 连 续 栈 技术 是 Go 能 够 开 千 千 万 万 条 “线程 "而 不 耗 尽 内 存 的 基本 保 
证 ， 也 为 cgo 带 来 了 很 大 的 限制 ， 这 些 将 会 在 后 面 章节 中 再 讨论 。 


好 ， 让 我 们 进入 正题 吧 | 
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节 : nil 的 语义 
节 : Go 调用 汇编 和 C 


3.1 Go 调用 汇编 和 C 


只 要 不 使 用 C 的 标准 库 函 数 ，Go 中 是 可 以 人 Mv ein Go 的 运行 时 库 就 是 用 C 和 汇编 实现 
的 ，Go 必 须 是 能 够 调用 到 它们 的 。 当 然 ， 会 有 一 些 额外 的 约束 ， 是 函数 调用 协议 。 


Go 中 调用 汇编 


假设 我 们 做 一 个 汇编 版 本 的 加 法 函数 。 首 先 GOPATH 的 src 下 新 建 一 个 add 目 录 ， 然 后 在 该 目录 加 入 add.go 的 文件 ， 内 容 如 
下 : 


package add 


func Add(a, b uint64) uint64 { 
return a+b 


ye 


个 函数 将 两 个 uint64 的 数字 相 加 ， 并 返回 结果 。 我 们 写 一 个 简单 的 函数 调用 它 ， 内 容 如 下 : 


package main 


import ( 
nfmt" 
nadd" 
) 


func main() { 
fmt.Println(add.Add(2, 15)) 


} 


可 以 看 到 输出 了 结果 为 17。 好 的 ， 接 下 来 让 我 们 删除 Add 函 数 的 实现 ， 只 留 下 定义 部 分 : 


package add 


func Add(a, b uint64) uint64 


然后 在 add.go 同 一 目录 中 建立 一 个 add_amd64.s 的 文件 (假设 你 使 用 的 是 64 位 系统 )， 内 容 如 下 : 


TEXT ‘Add+0(SB), $0-24 
MOVQ a+0(FP), BX 

MOVQ b+8(FP),BP 

ADDQ BP, BX 

MOVQ BX, res+16(FP) 


RET 
虽然 汇编 是 相当 难 理解 的 ， 但 我 相信 谍 Gt ne Semen 别 将 第 一 个 参数 放 到 寄存 器 BX， 第 二 个 
参数 放 到 寄存 器 BP， 然 后 ADDQ 指 令 将 两 者 相 加 后 ， 最 后 的 MOVQ 和 RET 指 令 Se 


现在 ， 再 次 运行 前 面 的 main 元 数 ， 它 将 使 用 自 定义 的 汇编 版 本 函数 ， 可 以 看 到 成 功 的 输出 了 结果 17。 从 这 个 例子 中 可 以 看 出 
Go 是 可 以 直接 调用 汇编 实现 的 函数 的 。 大 多 时 候 不 必要 你 去 写 汇编 ， 即 使 是 研究 Go 的 内 部 实现 ， 能 读 懂 汇编 已 经 很 足够 
了 。 


也 许 你 站 的 觉得 在 Go 中 写 汇编 很 酷 ， 但 是 不 要 忽视 了 这 些 忠告 : 


e@ 汇编 很 难 编写 ， 特 别 是 很 难 写 好 。 通 常 编译 器 会 比 你 写 出 更 快 的 代码 。 

e el 在 这 eh 子 中 ， 代 码 仅 能 运行 在 amd64 上 。 这 个 问题 有 一 个 解决 方 合 Go 对 于 x86 
和 不 同 版 本 的 代码 分 别 写 一 套 代 码 ， 文 件 名 相应 的 以 386.s 和 _arm.s 结 尾 。 

e My ， 而 标准 的 Go 不 会 。 例 如 ，slice 的 长 度 当前 是 32 位 整数 。 但 是 也 不 是 不 可 能 为 长 整 型 。 


当 发 生 这 些 变化 时 ， 这 些 代码 就 被 破坏 了 。 
当前 Go 编译 器 不 能 将 汇编 编译 为 函数 的 内 联 ， 但 是 对 于 小 的 Go 函数 是 可 以 的 。 因 此 使 用 汇编 可 能 意味 着 让 你 的 程序 更 慢 。 


有 时 需要 汇编 给 你 带 来 一 些 力量 (不论 是 性 能 方面 的 原因 ， 还 是 一 些 相 当 特殊 的 关于 CPU 的 操作 ) 。 对 于 什么 时 候 应 该 使 用 
它 ，Go 源 码 包 括 了 若干 相当 好 的 例子 (可 以 看 看 crypto 和 math) 。 由 于 它 非 常 容易 实践 ， 所 以 这 绝对 是 个 学 习 汇 编 的 好 途 


Go 中 调用 C 
接 下 来 ， 我 们 继续 尝试 在 Go 中 调用 C， 跟 调用 汇编 的 过 程 很 类 似 。 首 先 删 掉 前 面 的 add_amd64.s 文 件 ， 并 确保 add.go 文 件 中 
只 是 给 出 了 Add 函 数 的 声明 部 分 : 

package add 


func Add(a, b uint64) uint64 


然后 在 add.go 同 目录 中 ， 新 建 一 个 add.c 文 件 ， 内 容 如 下 : 


#include "runtime.h" 
void .Add(uint64 a, uint64 b, uint64 ret) { 


ret =a+b; 
FLUSH(&ret); 


编译 该 包 ， 运 行 前 面 的 测试 函数 : 


go install add 


会 发 现 输 出 结果 为 17， 说 明 Go 中 成 功 地 调用 到 了 C 写 的 函数 。 


要 注意 的 是 不 管 是 C 或 是 汇编 实现 的 函数 ， 其 函数 名 都 是 以 :开头 的 。 还 有 ，C 文 件 中 需要 包含 runtime.h 头 文件 。 这 个 原因 在 
该 文件 中 有 说 明 : Go 用 了 特殊 寄存 器 来 存放 像 全 局 的 struct G 和 struct M。 包 含 这 个 头 文件 可 以 让 所 有 链接 到 Go 的 C 文 件 都 
知道 这 一 点 ， 这 样 编译 器 可 以 避免 使 用 这 些 特定 的 寄存 器 作 其 它 用 途 。 

让 我 们 仔细 看 一 下 这 个 C 实 现 的 函数 。 可 以 看 到 函数 的 返回 值 为 室 ， 而 参数 多 了 一 个 ， 第 三 个 参数 实际 上 被 作为 了 返回 值 使 
用 。 其 中 FLUSH 是 在 pkg/runtime/runtime.h 中 定义 为 USED(x)， 这 个 定义 是 Go 的 C 编 译 器 自 带 的 primitive， 作 用 是 抑制 编译 
器 优化 掉 对 *x 的 赋值 的 。 如 果 你 很 好 奇 USED 是 怎样 定义 的 ， 可 以 去 $GOROOT/includellibc.h 文 件 里 去 找 找 。 





被 调 函 数 中 对 参数 ret 的 修改 居然 返回 到 了 调用 函数 ， 这 个 看 起 来 似乎 不 可 理解 ， 不 过 早期 的 C 编 译 器 确实 是 可 以 这 么 做 的 。 


函数 调用 时 的 内 存 布局 
Go 中 使 用 的 C 编 译 器 其 实 是 plan9 的 C 编 译 器 ， 和 我 们 平时 理解 的 gcc 等 会 有 一 些 区 别 。 我 们 将 上 面 的 add.c 汇 编 一 下 : 


go tool 6c -I $GOROOT/src/pkg/runtime -S add.c 


生成 的 汇编 代码 大 概 是 这 个 样子 的 : 


"" ,Add t=1 size=16 value=0 args=0x18 locals=0 
000000 0Q0000 (add.c:3) TEXT "" .Add+0(SB), 4,$0-24 
000000 00000 0 NOP 
000000 00000 中 CS NOP 
000000 00000 C9) FUNCDATA $2, gcargs .0<>+0(SB) 
000000 00000 (add.c:3) FUNCDATA $3,gclocals.1<>+0(SB) 
C 
C 
C 
.C 


( 
(ad 
(add 
( 
000000 00000 :4) MOVQ a+8(FP),AX 
( 
(ad 
(ad 
4. 


Ox0005 00005 (add.c:4) ADDQ b+16(FP),AX 

gx900a 00010 :4) MOVQ AX,c+24(FP) 

gx900f 00015 :5) RET 

000000 48 8b 44 24 08 48 03 44 24 19 48 89 44 24 18 c3 H.D$.H.D$.H.D$. 


这 是 Go 使 用 的 汇编 代码 ， 是 一 种 类 似 plan9 的 汇编 代码 。 ee 。 其 中 FP 是 
帧 寄存 器 ， 它 是 一 个 伪 寄 存 器 ， 实 际 上 是 内 存 位 置 的 一 个 引用 ， 其 实 就 是 BP( 栈 基 址 寄存 器 ) 上 移 一 个 机 器 字 长 位 置 的 内 存 地 
址 。 


函数 调用 之 前 ，a+8(FP),b+16(FP) 分 别 表示 参数 a 和 b， 而 参数 3 的 位 置 被 空 着 ， 在 被 调 函 数 中 ， 这 个 位 置 将 用 于 存放 返回 
值 。 此 时 的 其 内 存 布 局 如 下 所 示 : 


参数 3 
参数 2 
参数 1 <-SP 


进入 被 调 函 数 之 后 ， 内 存 布局 如 下 所 示 : 


参数 3 
参数 2 
参数 1 <-FP 
保存 PC <-SP 


CALL 指 令 会 使 得 SP 下 移 ，SP 位 置 的 内 存 用 于 保存 返回 地 址 。 帧 寄存 器 FP 此 时 位 置 在 SP 上 面 。 在 plan9 汇 编 中 ， 进 入 函数 之 
后 的 前 几 条 指令 并 没有 出 现 push ebp; mov esp ebp 这 种 模式 。plan9 函 数 调 用 协议 中 采用 的 是 caller-save 的 模式 ， 也 就 是 由 
保存 寄存 器 。 注 意 这 和 传统 的 C 是 不 同 的 。 传 统 C 中 是 callee-save 的 模式 ， 被 调 函 数 要 负责 保存 它 想 使 用 的 寄存 

， 在 函数 退出 时 恢复 这 些 寄存 器 。 


需要 注意 的 是 参数 和 返回 值 都 是 有 对 齐 的 。 这 里 是 按 Structrnd 对 齐 的 ，Structrnd 在 源 代码 中 义 为 sizeof(uintptr)。 


links 


节 : 函数 调用 协议 
一 节 : 多 值 返 回 


多 值 返 回 


i re ee 怎么 实现 的 呢 ? 让 我 们 先 看 一 看 C 语 言 是 如 果 返 回 多 个 值 的 。 在 C 中 如 果 想 返回 多 个 值 ， 通 党 
在 调用 函数 中 分 配 返 回 值 的 空间 ， 并 将 返回 值 的 指针 传 给 被 调子 数 。 


窗 


强 


int ret1, ret2; 
f(a, b, &reti1, &ret2) 


被 调 函 数 被 定义 为 下 面 形式 ， 在 函数 中 会 修改 ret1 和 ret2。 对 指针 参数 所 指向 的 内 容 的 修改 会 被 返回 到 调用 函数 ， 用 这 种 方式 
实现 多 值 返回 。 


void it(int argl, Tne arg2r Int rett hn 人 Te2) 


所 以 ， 从 表面 上 看 Go 的 多 值 返 回 只 不 过 像 是 这 种 实现 方式 的 一 个 语法 糖衣 。 其 实 简单 的 这 么 理解 也 没什么 影响 ， 但 实际 上 
Go 不 是 这 么 干 的 ，Go 和 我 们 常用 的 C 编 译 器 的 函数 调用 协议 是 不 同 的 。 


假设 我 们 定义 一 个 Go 函数 如 下 : 


func f(arg1，arg2 int) (ret1，ret2 int) 


Go 的 做 法 是 在 传 入 的 参数 之 上 留 了 两 个 空位 ， 被 调 者 直接 将 返回 值 放 在 这 两 空位 ， 函 数 f 调 用 前 其 内 存 布 局 是 这 样 的 : 


为 ret2 保 留 空位 
为 ret1 保 留 空位 
参数 3 

参数 2 

参数 1 <-SP 


调用 之 后 变 为 : 


为 ret2 保 留 空位 
为 ret1 保 留 空位 
参数 2 

参数 1 <-FP 
保存 PC <-SP 
f 的 栈 


Go 的 C 编 译 器 ， et 实现 的 ， 在 被 调 函 数 中 对 参数 值 的 修改 是 会 返回 到 调用 函数 中 的 。 在 函数 体 中 设置 ret1 和 
ret2 的 值 ， 实际 上 会 被 编译 成 这 


MOVQ BX, ret1+16(FP) 


MOVQ BX, ret2+24(FP) 


对 ret1+16(FP) 的 赋值 其 实 是 修改 的 调用 函数 的 栈 中 的 内 容 ， 这 样 就 会 将 结果 返回 给 调用 函数 了 。 这 就 是 Go 和 C 函 数 调用 协议 
中 很 重要 的 一 个 区 别 : 为 了 实现 多 值 返回 ，Go 是 使 用 栈 空间 来 返回 值 的 。 而 常见 的 C 语 言 是 通过 寄存 器 来 返回 值 的 。 
links 
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3.2 go 关键 字 


在 Go 语言 中 ， 表 达 式 go f(x, y, Zz) 会 启动 一 个 新 的 goroutine 运 行 函 数 f(x, y, z)。 函 数 f， 变 量 X、y、z 的 值 是 在 原 goroutine 计 算 
的 ， 只 有 兄 数 {的 执行 是 在 新 的 goroutine 中 的 。 显 然 ， 新 的 goroutine 不 能 和 当前 go 线程 用 同一 个 栈 ， 否 则 会 相互 覆盖 。 所 以 
对 go 关键 字 的 调用 协议 与 普通 函数 调用 是 不 同 的 。 


首先 ， 让 我 们 看 一 下 如 果 是 C 代 码 新 建 一 条 线程 的 实现 会 是 什么 样子 的 。 大 概 会 先 建 一 个 结构 体 ， 结 构 体 里 存 f、x、y 和 Zz 的 
值 。 然 后 写 一 个 help 有 函数 ， 将 这 个 结构 体 指针 作为 输入 ， 函 数 体内 调用 f(X, y, Z)。 接 下 来 ， 先 填充 结构 体 ， 然 后 调用 
newThread(help, structptr)。 其 中 help 是 刚刚 那个 函数 ， 它 会 调用 f(x, y z)。help 函 数 将 作为 所 有 新 建 线程 的 入 口 函数 。 


这 样 做 有 什么 问题 么 ? 没什么 问题 ... 只 是 这 样 实现 代价 有 点 高 ， 每 次 调用 都 会 花 上 不 少 的 指令 。 其 实 Go 语 言 中 对 go 关键 字 的 
实现 会 更 加 hack 一 些 ， 避 免 了 这 么 做 。 


先 看 看 正常 的 函数 调用 ， 下 面 是 调用 f(1, 2, 3) 时 的 汇编 代码 : 


MOVL $1, 0(SP) 
MOVL $2, 4(SP) 
MOVL $3, 8(SP) 
cALL f(sSB) 


首先 将 参数 1、2、3 进 栈 ， 然 后 调用 函数 f。 


下 面 是 go f(1, 2, 3) 生 成 的 代码 : 


MOVL $1, 0(SP) 
MOVL $2, 4(SP) 
MOVL $3, 8(SP) 
PUSHQ $f(SB) 


PUSHQ $12 

CALL runtime.newproc(SB) 
POPQ AX 

POPQ AX 


对 比 一 个 会 发 现 ， 前 面部 分 跟 普通 函数 调用 是 一 样 的 ， 将 参数 存储 在 正常 的 位 置 ， 并 没有 新 建 一 个 辅助 的 结构 体 。 接 下 来 的 
两 条 指令 有 些 不 同 ， 将 f 和 12 作 为 参数 进 栈 而 不 直接 调用 f， 然 后 调用 函数 runtime.newproc 。 


12 是 参数 占用 的 大 小 。 runtime.newproc 函数 接受 的 参数 分 别 是 : 参数 大 小 ， 新 的 goroutine 是 要 运行 的 函数 ， 函 数 的 n 个 参 
数 。 


在 runtime.newproc 中 ， 会 新 建 一 个 栈 空间 ， 将 栈 参 数 的 12 个 字 节 拷贝 到 新 栈 空间 中 并 让 栈 指针 指向 参数 。 这 时 的 线程 状态 
有 点 像 当 被 调度 器 剥夺 CPU 后 一 样 ， 寄 存 器 PC、SP 会 被 保存 到 类 似 于 进程 控制 块 的 一 个 结构 体 struct G 内 。f 被 存放 在 了 
struct G 的 entry 域 ， 后 面 进行 调度 器 恢复 goroutine 的 运行 ， 新 线程 将 从 f 开 始 执行 。 


和 前 面 说 的 如 果 用 C 实 现 的 差别 就 在 于 ， 没 有 使 用 辅助 的 结构 体 ， 而 runtime.newproc 实际 上 就 是 help 函 数 。 在 函数 协议 上 ， 
go 表达 式 调 用 就 比 普通 的 函数 调用 多 四 条 指令 而 已 ， 并 且 在 实际 上 并 没有 为 go 关键 字 设 计 一 套 特殊 的 东西 。 不 得 不 说 这 个 做 
法 丨 的 非常 精妙 ! 


总 结 一 个 ，go 关 键 字 的 实现 仅仅 是 一 个 语法 糖衣 而 已 ， 也 就 是 : 


go f(args) 


可 以 看 作 


runtime.newproc(size, f, args) 


links 
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3.4 defer 关 键 字 


defer 和 go 一 样 都 是 Go 语言 提供 的 关键 字 。defer 用 于 资源 的 释放 ， 会 在 函数 返回 之 前 进行 调用 。 一 般 采 用 如 下 模式 : 


f,err := 0S.0pen(filename) 
fF er Ie ni 和 

panic(err) 
} 


defer f.Close() 


如 果 有 多 个 defer 表 达 式 ， 调 用 顺序 类 似 于 栈 ， 越 后 面 的 defer 表 达 式 越 先 被 调用 。 


不 过 如 果 对 defer 的 了 解 不 够 深入 ， 使 用 起 来 可 能 会 躁 到 一 些 坑 ， 尤 其 是 跟 带 命名 的 返回 参数 一 起 使 用 时 。 在 讲解 defer 的 实现 
之 前 先 看 一 看 使 用 defer 容 易 遇 到 的 问题 。 


defer 使 用 时 的 坑 
先 来 看 看 几 个 例子 。 例 1 


func f() (result int) { 
defer func() { 
result++ 


}() 


return gg 


例 2 : 


fune TL) Cr 二 RE 并 


h 
defer func() { 
下 
}() 
return t 
} 
例 3 : 


Une i Or Nt 
defer func(r int) { 
P=mrrs 


}(r) 


return 1 


请 读者 先 不 要 运行 代码 ， 在 心里 跑 一 遍 结 果 ， 然 后 去 验证 。 
例 1 的 正确 答案 不 是 0， 例 2 的 正确 答案 不 是 10， 如 果 例 3 的 正确 答案 不 是 6..….. 


defer 是 在 return 之 前 执行 的 。 这 个 在 官方 文档 中 是 明确 说 明了 的 。 要 使 用 defer 时 不 踩 坑 ， 最 重要 的 一 点 就 是 要 明白 ，return 
XXX 这 一 条 语句 并 不 是 一 条 原子 指令 ! 





函数 返回 的 过 程 是 这 样 的 : 先 给 返回 值 赋值 ， 然 后 调用 defer 表 达 式 ， 最 后 才 是 返回 到 调用 函数 中 。 
defer 表 达 式 可 能 会 在 设置 函数 返回 值 之 后 ， 在 返回 到 调用 函数 之 前 ， 修 改 返回 值 ， 使 最 终 的 函数 返回 值 与 你 想象 的 不 一 致 。 


其 实 使 用 defer 时 ， 用 一 个 简单 的 转换 规则 改写 一 下 ， 就 不 会 迷糊 了 。 改 写 规 则 是 将 return 语 和 句 拆 成 两 纯 写 ，return XXX 会 被 改 
写成 : 


返回 值 = XXX 
调用 defer 函 数 
空 的 return 


先 看 例 1， 它 可 以 改写 成 这 样 : 


func f() (result int) { 
result = 0 //return 语 句 不 是 一 条 原子 调用 ，return xxx 其 实 是 赋值 十 ret 指 令 
func() { //defer 被 插入 到 return 之 前 执行 ， 也 就 是 赋 返 回 值 和 ret 指 令 之 间 
result++ 


0) 


return 


所 以 这 个 返回 值 是 1。 


再 看 例 2， 它 可 以 改写 成 这 样 : 


Tunc 人 YE Tint 


0 
r = tt // 赋 值 指令 
func() { //defer 被 插入 到 赋值 与 返回 之 间 执 行 ， 这 个 例子 中 返回 值 r 没 被 修改 过 
人 
return // 空 的 return 指 令 
} 
所 以 这 个 的 结果 是 5。 


这 
最 后 看 例 3， 它 改写 后 变 成 : 


下 ROSS pn nt 
r = 1 // 给 返回 值 赋值 


func(r int) { // 这 里 改 的 r 是 传 值 传 进去 的 r， 不 会 改变 要 返回 的 那个 r 值 
dr ts) 

}(r) 

return // 空 的 return 


所 以 这 个 例子 的 结果 是 1。 


defer 确 实 是 在 return 之 前 调用 的 。 但 表现 形式 上 却 可 能 不 像 。 本 质 原因 是 return XXX 语句 并 不 是 一 条 原子 指令 ，defer 被 插入 到 
了 赋值 与 ret 之 间 ， 因 此 可 能 有 机 会 改变 最 终 的 返回 值 。 


[a 
defer 的 实现 
defer 关 键 字 的 实现 跟 go 关 键 字 很 类 似 ， 不 同 的 是 它 调 用 的 是 runtime.deferproc 而 不 是 runtime.newproc。 
在 defer 出 现 的 地 方 ， 插 入 了 指令 call runtime.deferproc， 然 后 在 函数 返回 之 前 的 地 方 ， 插 入 指令 call runtime.deferreturn 。 


普通 的 函数 返回 时 ， 汇 编 代 码 类 似 : 


Bd XSp 
return 


如 果 其 中 包含 了 defer 语 名， 则 汇编 代码 是 : 


call runtime.deferreturn ， 
add xx SP 
return 


goroutine 的 控制 结构 中 ， 有 一 张 表 记录 defer， 调 用 runtime.deferproc 时 会 将 需要 defer 的 表达 式 记录 在 表 中 ， 而 在 调用 
runtime.deferreturn 的 时 候 ， 则 会 依次 从 defer 表 中 出 栈 并 执行 。 


links 
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连续 栈 

Go 语言 支持 goroutine， 每 个 goroutine 需 要 能 够 运行 ， 所 以 它们 都 有 自己 的 栈 。 假 如 每 个 goroutine 分 配 固定 栈 大 小 并 且 不 能 
增长 ， 太 小 则 会 导致 溢出 ， 太 大 又 会 浪费 空间 ， 无 法 存在 许多 的 goroutine 。 


为 了 解决 这 个 问题 ，goroutine 可 以 初始 时 只 给 栈 分 配 很 小 的 空间 ， 然 后 随 着 使 用 过 程 中 的 需要 自动 地 增长 。 这 就 是 为 什么 Go 
可 以 开 千 千 万 万 个 goroutine 而 不 会 耗 尽 内 存 。 


Go1.3 版 本 之 后 则 使 用 的 是 continuous stack， 下 面 将 具体 分 析 一 下 这 种 技术 。 


基本 原理 


每 次 执行 函数 调用 时 Go 的 runtime 都 会 进行 检测 ， 若 当前 栈 的 大 小 不 够 用 ， 则 会 触发 "中 断 ”， 从 当前 函数 进入 到 Go 的 运行 时 

库 ，Go 的 运行 时 库 会 保存 此 时 的 函数 上 下 文 环 境 ， 然 后 分 间 ， 将 旧 到 新 栈 中 ， 并 做 一 
些 设置 ， 使 得 当 函 数 恢复 运行 时 ， 函 数 会 在 新 分 配 的 栈 中 继续 执行 ， 仿 佛 整个 过 程 都 没 发 生 过 一 样 ， 这 个 函数 会 觉得 自己 使 
用 的 是 一 块 大 小 无限” 的 栈 空间 。 


实现 过 程 
在 研究 Go 的 实现 细节 之 前 让 我 们 先 自己 思考 一 下 应 该 如 何 实现 。 第 一 步 肯定 要 有 某 种 机 制 检测 到 当前 栈 大 小 不 够 用 了 ， 


应 该 是 把 当前 的 栈 寄存 器 SP 跟 栈 的 可 用 栈 空间 的 边界 进行 比较 。 人 到 栈 大 小 不 够 用 ， 就 相当 于 捕捉 到 了 "中断 ”。 


捕获 完 “ 中 断 "， 第 二 步 要 做 的 ， 就 应 该 是 进入 运行 时 ， 保 存 当 前 goroutine 的 上 下 文 。 别 ss ， 先 假如 
我 们 把 函数 栈 增 长 时 的 上 下 文保 存 好 了 ， 那 下 一 步 就 是 分 配 新 的 栈 空 间 了 ， 我 们 可 以 将 分 配 空 间 想象 成 就 是 调用 一 下 malloc 
而 已 。 


接 下 来 怎么 办 呢 ? 我 们 要 将 虽 栈 中 的 内 容 拷贝 到 新 栈 中 ， 然 后 让 咏 数 继续 在 新 栈 中 运行 。 这 里 先 暂 时 忽略 旧 栈 内 容 拷 贝 到 育 
栈 中 的 一 些 技 术 难 点 ， 假 设 在 新 栈 空间 中 恢复 了 “中 断 " 时 的 上 下 文 ， 从 运行 时 返 a 8 


函数 在 新 的 栈 中 继续 运行 了 ， 但 是 还 有 个 问题 : 函数 如 何 返 回 。 因 为 函数 返回 后 栈 是 要 缩小 的 ， 否 则 就 会 内 存 浪费 空间 了 ， 
所 以 还 需要 在 函数 返回 时 处 理 栈 缩小 的 问题 。 


具体 细节 


如 何 捕获 到 函数 的 栈 空间 不 足 


Go 语言 和 C 不 同 ， 不 是 使 用 栈 指针 寄存 器 和 栈 基 址 寄存 器 确定 函数 的 栈 的 。 在 Go 的 运行 时 库 中 ， 每 个 goroutine 对 应 一 个 结构 
体 G， 大 致 相当 于 进程 控制 块 的 概念 。 这 个 结构 体 中 存 了 stackbase 和 stackguard， 用 于 确定 这 个 goroutine 使 用 的 栈 空间 信 
息 。 每 个 Go 函数 调用 的 前 几 条 指令 ， 先 比较 栈 指针 寄存 器 跟 g->stackguard， 检 测 是 否 发 生 栈 溢出 。 如 果 栈 指针 寄存 器 值 超 
越 了 stackguard 就 需要 扩展 栈 空间 。 


为 了 加 深 理解 ， 下 面 让 我 们 跟踪 一 下 代码 ， 并 看 看 实际 生成 的 汇编 吧 。 首 先 写 一 个 test.go 文 件 ， 内 容 如 下 : 


package main 
func main() { 
main() 


} 
然后 生成 汇编 文件 : 
go tool 6g -S test.go | head -8 


可 以 看 以 输出 是 : 


000000 00000 (test.go:3) TEXT "",.main+0(SB), $0-0 

000000 00000 (test.go:3) MOVQ (TLS), CX 

Qx0009 00009 (test.go:3) CMPQ Sp, (CX) 

0x000c 00012 (test.go:3) JHI 2 

0x000e 00014 (test.go:3) CALL ,runtime.morestack00_noctxt (SB) 
Qx0013 00019 (test.go:3) JMP ,0 

0x0015 00021 (test.go:3) NOP 


让 我 们 好 好 看 一 下 这 些 指令 。(TLS) 取 到 的 是 结构 体 G 的 第 一 个 域 ， 也 就 是 g->stackguard 地 址 ， 将 它 赋值 给 CX。 然 后 CX 地 址 
的 值 与 SP 进行 比较 ， 如 果 SP 大 于 g->stackguard 了 ， 则 会 调用 runtime.morestack 函 数 。 这 几 条 指令 的 作用 就 是 检测 栈 是 否 溢 
出 。 


不 过 并 不 是 所 有 函数 在 链接 时 都 会 插入 这 种 指令 。 如 果 你 读 源 代码 ， 可 能 会 发 现 #pragma textflag 7 ， 或 者 在 汇编 函数 中 看 
到 TEXT reuntime.exit(SB),7,$9 ， 这 种 函数 就 是 不 会 检测 栈 溢出 的 。 这 个 是 编译 标记 ， 控 制 是 否 生 成 栈 溢出 检测 指令 。 


runtime.morestack 是 用 汇编 实现 的 ， 做 的 事情 大 致 是 将 一 些 信 息 存 在 M 结 构 体 中 ， 这 些 信息 包括 当前 栈 桢 ， 参 数 ， 当 前 函数 
调用 ， 遂 数 返 回 地 址 (两 个 返回 地 址 ， 一 个 是 runtime.morestack 的 函数 地 址 ， 一 个 是 {的 返回 地 址 ) 。 通 过 这 些 信息 可 以 把 新 
栈 和 四 栈 链 起 来 。 


void runtime.morestack() { 

if(g == 99) { 
panic(); 

} else { 
m->morebuf.gobuf_pc = getCcallerCallerPC(); 
void *SP = getCcallerSP(); 
m->morebuf.gobuf_sp = SP; 
m->moreargp = SP; 
m->morebuf.gobuf g = 9g; 
m->morepc = getCcallerPC(); 


void *g9 = m->g9; 

g = 9g0; 
setSsp(g0->g_sched.gobuf_sp); 
runtime.newstack( ); 


需要 注意 的 就 是 newstack 是 切换 到 m->g0 的 栈 中 去 调用 的 。m->g0 是 调度 器 栈 ，go 的 运行 时 库 的 调度 器 使 用 的 都 是 m->g0。 


日 栈 数据 复制 到 新 栈 


runtime.morestack 会 调用 于 runtime.newstack，newstack 做 的 事情 很 好 理解 : 分 配 一 个 足够 大 的 新 的 空间 ， 将 日 的 栈 中 的 数 
据 复 制 到 新 的 栈 中 ， 进 行 适当 的 修饰 ， 伪 装 成 调用 过 runtime.lessstack 的 样子 (这 样 当 函 数 返回 时 就 会 调用 runtime.lessstack 
再 次 进入 runtime 中 做 一 些 栈 收缩 的 处 理 ) 。 


这 里 有 一 个 技术 难点 : 四 栈 数据 复制 到 新 栈 的 过 程 ， 要 考虑 指针 失效 问题 。 


比如 有 某 个 指针 ， 引 用 了 旧 栈 中 的 地 址 ， 如 果 仅仅 是 将 四 栈 内 容 搬 到 新 栈 中 ， 那 么 该 指针 就 失效 了 ， 因 为 旧 栈 已 被 释放 ， 应 
该 修改 这 个 指针 让 它 指向 新 栈 的 对 应 地 址 。 考 虑 如 下 代码 : 


fune f1t% Tt 
var a A 
f(&a) 

有 

func f2(a *A) { 
// modify a 

} 


如 果 在 全 中 发 生 了 栈 增 长 ， 此 时 分 配 更 大 的 空间 作为 新 栈 ， 并 将 昌 栈 内 容 拷贝 到 新 栈 中 ， 仅 仅 这 样 是 不 够 的 ， 因 为 全 中 的 a 还 
是 指向 昌 栈 中 的 f1 的 ， 所 以 必须 调整 。 


Go 实现 了 精确 的 垃圾 回收 ， 运 行 时 知道 每 一 块 内 存 对 应 的 对 象 的 类 型 信息 。 在 复制 之 后 ， 会 进行 指针 的 调整 。 具 体 做 法 是 ， 
对 当前 栈 帧 之 前 的 每 一 个 栈 帧 ， 对 其 中 的 每 一 个 指针 ， 检 测 指针 指向 的 地 址 ， 如 果 指 向 地 址 是 落 在 曙 栈 范围 内 的 ， 则 将 它 加 
上 一 个 偏 移 使 它 指向 新 栈 的 相应 地 址 。 这 个 偏 移 值 等 于 新 栈 基地 址 减 日 栈 基地 址 。 


runtime.lessstack 比 较 简单 ， 它 其 实 就 是 切换 到 m->g0 栈 之 后 调 runtime.oldstack 函 数 。 这 ee 的 那个 Stktop 结 构 体 
是 时 候 发 挥 作用 了 ， 从 上 面 可 以 找到 斩 栈 空间 的 SP 和 PC 等 信息 ， 通 过 runtime.gogo 跳 转 过 去 ， 整 个 过 程 就 完成 了 。 


gp = m->curg; // 当 前 g 

top = (Stktop*)gp->stackbase; // 取 得 Stktop 结 构 体 
label = top->gobuf; // 从 结构 体 中 取出 Gobuf 
runtime.gogo(&label，cret); // 通 过 Gobuf 恢 复 上 下 文 


使 用 分 段 栈 的 函数 头 几 个 指令 检测 SP 和 stackguard， 调 用 runtime.morestack 
runtime.morestack 郊 数 的 主要 功能 是 保存 当前 的 栈 的 一 些 信 息 ， 然 后 转换 成 调度 器 的 栈 调 用 runtime.newstack 
runtime.newstack 函 数 的 主要 功能 是 分 配 空间 ， 装 饰 此 空间 ， 将 旧 的 frame 和 arg 弄 到 新 空间 
使 用 gogocall 的 方式 切换 到 新 分 配 的 栈 ，gogocall 使 用 的 JMP 返 回 到 被 中 断 的 函数 

继续 执行 遇 到 RET 指 令 时 会 返回 到 runtime.lessstack，lessstack 做 的 事情 跟 morestack 相 反 ， 它 要 准备 好 从 new stack 到 
old stack 


Own 一 


整个 过 程 有 点 像 一 次 中 断 ， 中 断 处 理 时 保存 当时 的 现场 ， 弄 个 新 的 栈 ， 中 断 恢 复 时 恢复 到 新 栈 中 运行 。 栈 的 收缩 是 垃圾 回收 
的 过 程 中 实现 的 . 当 检 测 到 栈 只 使 用 了 不 到 1/4 时 ， 栈 缩小 为 原来 的 1/2. 


links 
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e@ 上 一 节 : defer 关 键 字 
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3.6 闭 包 的 实现 


闭 包 是 由 函数 及 其 相关 引用 环境 组 合 而 成 的 实体 ( 即 : 闭 包 = 函数 + 引用 环境 ) 。 


O 中 的 闭 包 


We 言 中 的 概念 ， 没 有 研究 过 函数 式 语 言 的 用 户 可 能 很 难 理解 闭 包 的 强大 ， 相 关 的 概念 超出 了 本 书 的 范围 。Go 语 
持 闭 包 的 ， 这 里 只 是 简单 地 讲 一 下 在 Go 语言 中 闭 包 是 如 何 实现 的 。 


func f(r int) Fun) intst 
return func() int { 

i++ 

return i 


函数 返回 了 一 个 函数 ， 返 回 的 这 个 函数 ， 返 回 的 这 个 函数 就 是 一 个 闭 包 。 这 个 函数 中 本 身 是 没有 定义 变量 | 的 ， 而 是 引用 了 它 
所 在 的 环境 ( 函数 f) 中 的 变量 i。 


cl := f(0) 
c2 := f(0) 
c1() // reference to i, i = 0, return 1 

c2() // reference to another i, i = 90, return 1 


c1 跟 c2 引 用 的 是 不 同 的 环境 ， 在 调用 it+ 时 修改 的 不 是 同一 个 1， 因此 两 次 的 输出 都 是 1。 函 数 f 每 进入 一 次 ， 就 形成 了 一 个 新 的 
环境 ， 对 应 的 闭 包 中 ， 函 数 都 是 同一 个 函数 ， 环 境 却 是 引用 不 同 的 环境 。 


量 j 是 函数 f 中 的 局 部 变量 ， 假 设 这 个 变量 是 在 函数 f 的 栈 中 分 配 的 ， 是 不 可 以 的 。 的 ， 对 应 的 栈 就 失效 了 ，f 
回 


变 
返回 的 那个 函数 中 变量 i 就 引用 一 个 失效 的 位 置 了 。 所 以 闭 包 的 环境 中 引用 的 变量 不 能 够 在 栈 上 分 配 。 


escape analyze 
在 继续 研究 闭 包 的 实现 之 前 ， 先 看 一 看 Go 的 一 个 语言 特性 


TUnCTUOJ CurSseOR 
var c Cursor 

c.X = 500 
noinline() 
return &c 


Cursor 是 一 个 结构 体 ， 这 种 写法 在 C 语 言 中 是 不 允许 的 ， 因 为 变量 c 是 在 栈 上 分 配 的 ， 当 函数 {f 返 回 后 c 的 空间 就 失效 了 。 但 
是 ， 在 Go 语言 规范 中 有 说 明 ， 这 种 写法 在 Go 语言 中 合法 的 。 语 言 会 自动 地 识别 出 这 种 情况 并 在 堆 上 分 配 c 的 内 存 ， 而 不 是 函 
数 { 的 栈 上 。 


为 了 验证 这 一 点 ， 可 以 观察 函数 f 生 成 的 汇编 代码 : 


MOVQ $type."".Cursor+0(SB), (SP) // 取 变 量 c 的 类 型 ， 也 就 是 Cursor 

PCDATA $0, $16 

PCDATA $1, $0 

CALL rruntime .new(SB) // 调用 new 函 数 ， 相 当 于 new(Cursor) 

PCDATA $0,$-1 

MOVQ 8(SP),AX // 取 C.X 的 地 址 放 到 AX 寄 存 器 

MOVQ $500, (AX) // 将 AX 存 放 的 内 存 地 址 的 值 赋 为 500 
MOVQ AX, "".~rQ+24(FP) 
ADDQ $16, SP 


识别 出 


变量 需要 在 堆 上 分 配 ， 是 由 编译 器 


go build --gcflags=-m main.go 


可 以 看 到 输出 : 


./main.go:20: moved to heap : 


C 


./main.go:23: &c escapes to heap 


的 一 种 叫 escape analyze 的 技术 实现 的 。 如 果 输 入 命令 : 


表示 C 逃 选 了 ， 被 移 到 堆 中 。escape analyze 可 以 分 析出 变量 的 作用 范围 ， 这 是 对 垃圾 回收 很 重要 的 一 项 技术 。 


闭 包 结 构 体 


回 到 闭 包 的 实现 来 ， 前 面 说 过 ， 


type Closure struct { 
F func()() 
i *int 


事实 上 ，Go 在 底层 确实 就 是 


Funo- fti LnEy Funct yr rnt et 


return func() int { 
Eb 
return i 


这 样 表示 一 个 闭 


MOVQ $type.int+0(SB), (SP) 


PCDATA $0, $16 
PCDATA $1, $0 
CALL runtime.new(SB) 


MOVQ $type.struct { F uintptr; 


CALL runtime.new(SB) 
PCDATA $0,$-1 

MOVQ 8(SP),AX 

NOP 


闭 包 是 函数 和 它 所 引用 的 环境 。 那 么 是 不 是 可 以 表示 为 一 个 结构 体 呢 : 


包 的 。 让 我 们 看 一 下 汇编 代码 : 


， 这 一 段 就 是 i = new(int) 


A9 *int }+0(SB), (SP) // 这 个 结构 体 就 是 闭 包 的 类 型 


// 接 下 来 相当 于 new(Closure) 


MOVQ  $"".func.001+0(SB),BP 


MOVQ BP, (AX) 

NOP 

MOVQ "nu,&i+16(SP),BP 
MOVQ BP, 8(AX) 

MOVQ AX,"".~r1it+40(FP) 
ADDQ $24,SP 

RET 


// 轧 数 地 址 赋值 给 Closure 的 F 部 分 


// 将 堆 中 new 的 变量 i 的 地 址 赋值 给 Closure 的 值 部 分 


其 中 func:001 是 另 一 个 函数 的 函数 地 址 ， 也 就 是 f 返 回 的 那个 函数 


小 结 


二 


语言 支持 闭 包 


2. Go ee 通过 escape analyze 识 别 出 变 量 


包 的 基础 。 


3. 返回 闭 包 时 并 不 是 单纯 返回 一 


个 函数 ， 而 是 返 


的 作用 域 ， 自 动 将 变量 在 堆 上 分 配 。 将 闭 包 环境 变量 在 堆 上 分 配 是 Go 实现 闭 


回 了 一 个 结构 体 ， 记 录 下 函数 返回 地 址 和 引用 的 环境 中 的 变量 地 址 。 


节 
节 


: Go 语言 程序 初始 化 过 程 


4 Go 语言 程序 初始 化 过 程 


作为 下 一 章 goroutine 调 度 的 一 个 前 序 ， 本 章 先 讲 一 些 基础 内 容 ， 看 一 看 Go 语言 编写 的 程序 的 初始 化 过 程 。 其 实 初始 化 过 程 中 
会 做 很 多 很 多 的 事情 ， 这 里 忽略 大 部 分 细节 ， 只 看 一 下 脉络 。 从 程序 入 口 开始 分 析 也 是 学 习 源 代码 的 一 个 好 方式 。 


首先 ， 写 一 个 hello world 文 件 ， 内 容 如 下 : 


package main 

Lmport fmt 

func main() { 
fmt.Println("hello world!") 

y 


编译 ， 使 用 gdb 调 试 。 给 下 列 函 数 下 断 点 : 


_rto9_amd64_darwin 
main 

_rt9_amd64 
runtime.check 
runtime.args 
runtime.osinit 
runtime.hashinit 
runtime.schedinit 
runtime.newproc 
runtime.mstart 
main.main 
runtime.exit 


你 可 能 需要 根据 自己 的 系统 将 _rt0_amd64_darwin 改 成 _rt0_amd64_linux 或 者 别 的 。 在 gdb 中 先 点 r， 回 车 ， 然 后 点 Cc， 回 车 ， 
接着 一 路 回 车 。 


别 着 急 ， 只 是 让 你 有 一 个 直观 的 感受 一 下 Go 程序 从 系统 初始 化 直到 退出 必 经 的 流程 。 下 面 让 我 们 正式 开始 吧 ! 


links 


@ 目录 
@ 上 一 节 : 闭 包 的 实现 
@ 下 一 节 : 系统 初始 化 


4.1 系统 初始 化 
整个 程序 启动 是 从 _rt0_amd64 darwin 开 始 的 ， 然 后 JMP 到 main， 接 着 到 _rt0_amd64。 前 面 只 有 一 点 点 汇编 代码 ， 做 的 事情 
就 是 通过 参数 argc 和 argv 等 ， 确 定 栈 的 位 置 ， 得 到 寄存 器 。 下 面 将 从 _rt0_amd64 开 始 分 析 。 


这 里 首先 会 设置 好 m->g0 的 栈 ， 将 当前 的 SP 设置 为 stackbase， 将 SP 往 下 大 约 64K 的 地 方 设置 为 stackguard。 然 后 会 获取 处 

理 器 信息 ， 放 在 全 局 变量 runtime:cpuid_ecx 和 runtime:cpuid_edx 中 。 接 着 ， 设 置 本 地 线程 存储 。 本 地 线程 存储 是 依赖 于 平台 
实现 的 ， 比 如 说 这 台 机 器 上 是 调用 操作 系统 函数 thread fast_set_cthread self。 设置 本 地 线程 存储 之 后 还 会 立即 测试 一 下 ， 

写 入 一 个 值 再 读 出 来 看 是 否 正常 。 





本 地 线程 存储 


这 里 解释 一 下 本 地 线程 存储 。 比 如 说 每 个 goroutine 都 有 自己 的 控制 信息 ， 这 些 信 息 是 存放 在 一 个 结构 体 G 中 。 假 设 我 们 有 一 
个 全 局 变量 g 是 结构 体 G 的 指针 ， 我 们 希望 只 有 唯一 的 全 局 变量 g， 而 不 是 g0，g1，g2... 但 是 我 们 又 希望 不 同 goroutine 去 访问 
这 个 全 局 变量 g 得 到 的 并 不 是 同一 个 东西 ， 它 们 得 到 的 是 相对 自己 线程 的 结构 体 G， 这 种 情况 下 就 需要 本 地 线程 存储 。g 确 实 
是 一 个 全 局 变量 ， 却 在 不 同 线程 有 多 份 不 同 的 副本 。 每 个 goroutine 去 访问 g 时 ， 都 是 对 应 到 自己 线程 的 这 一 份 副 本 。 


设置 好 本 地 线程 存储 之 后 ， 就 可 以 为 每 个 goroutine 和 machine 设 置 寄存 器 了 。 这 样 设 置 好 了 之 后 ， 每 次 调用 get_tls(D)， 就 会 
将 当 前 的 goroutine 的 g 的 地 址 放 到 寄存 器 r 中 。 你 可 以 在 源 代码 中 看 到 一 些 类 似 这 样 的 汇编 : 


get_tls(CX) 
MOVQ g(CX)，AX //get_tls(CX) 之 后 ，g(CX) 得 到 的 就 是 当前 的 goroutine 的 g 


不 同 的 goroutine 调 用 get_tls ， 得 到 的 g 是 本 地 的 结构 体 G 的 ， 结 构 体 中 记录 goroutine 的 相关 信息 。 


初始 化 顺序 


接 下 来 的 事情 就 非常 直 白 ， 可 以 直接 上 代码 : 


CLD // convention is D is always left cleared 

CALL runtime.check(SB) // 检 测 像 ijnt8, int16,float 等 是 否 是 预期 的 大 小 ， 检 测 cas 操 作 是 否 正常 
MOVL 16(SP), AX // copy argc 

MOVL AX, QO(SP) 

MOVQ 24(SP), AX // copy argv 


MOVQ AX, 8(SP) 

CALL runtime'args(SB) // 将 argc,argv 设 置 到 static 全 局 变量 中 了 

CALL runtime.osinit(SB) //0Sinit 做 的 事情 就 是 设置 [untime .ncpu， 不 同 平台 实现 方式 不 一 样 
CALL runtime.hashinit(SB) // 使 用 读 /dev/urandom 的 方式 从 内 核 获 得 随机 数 种 子 

CALL runtime.schedinit(SB) // 内 存 管理 初始 化 ， 根 据 GOMAXPROCS 设 置 使 用 的 procs 等 等 


proc.c 中 有 一 段 注释 ， 也 说 明了 bootstrap 的 顺序 : 


// The bootstrap sequence is: 

// 

A Ca Ost 

// call schedinit 

// make & queue new G 

// call runtime.mstart 

// 

// The new G calls runtime.main. 


先 调用 Osinit， 再 调用 schedinit， 创 建 就 绪 队 列 并 新 建 一 个 G， 接 着 就 是 mstart。 这 几 个 函数 都 不 大 复杂 。 


调度 器 初始 化 


让 我 们 看 一 下 runtime.schedinit 函 数 。 该 函数 其 实 是 包装 了 一 下 其 它 模 块 的 初始 化 函数 。 有 调用 mallocinit， mcommoninit 分 
别 对 内 存 管 理 模块 初始 化 ， 对 当前 的 结构 体 M 初 始 化 。 


接着 调用 runtime.goargs 和 runtime.goenvs， 将 程序 的 main 函 数 参 数 argc 和 argv 等 复制 到 了 os.Args 中 。 


也 是 在 这 个 函数 中 ， 根 据 环境 变量 GOMAXPROCS 决 定 可 用 物理 线程 数目 的 : 


procs = 1; 
p = runtime.getenv("GOMAXPROCS"); 
if(p != nil && (n = runtime.atoi(p)) > 0) { 
if(n > MaxGomaxprocs) 
n = MaxGomaxprocs; 
procs = n; 


回 到 前 面 的 汇编 代码 继续 看 : 


// 新 建 一 个 6， 当 它 运行 时 会 调用 main.main 


PUSHQ $runtime'main'f(SB) // entry 
PUSHQ $0 // arg size 

CALL runtime.newproc(SB) 

POPQ AX 

POPQ AX 


// start this M 
CALL runtime.mstart(SB) 


还 记得 前 面 章 节 讲 的 go 关键 字 的 调用 协议 么 ?了 先 将 参数 进 栈 ， 再 被 调 函 数 指针 和 参数 字 节 数 进 栈 ， 接 着 调用 runtime.newproc 
函数 。 所 以 这 里 其 实 就 是 新 开 个 goroutine 执 行 r[untime.main。 

runtime.newproc 会 把 runtime.main 放 到 就 绪 线 程 队 列 里 面 。 本 线程 继续 执行 [untime.mstart，m 意 思 是 machine 。 
runtime.mstart 会 调用 到 调度 函数 schedule 

Schedule 函数 绝 不 返回 ， 它 会 根据 当前 线程 队列 中 线程 状态 挑选 一 个 来 运行 。 由 于 当前 只 有 这 一 个 goroutine， 它 会 被 调度 ， 
然后 就 到 了 runtime.main 函 数 中 来 ，runtime.main 会 调用 用 户 的 main 函 数 ， 即 main.main 从 此 进入 用 户 代码 。 前 面 已 经 写 过 
helloworld 了 ， 用 gdb 调 试 ， 一 步 一 步 的 跟踪 观察 这 个 过 程 。 


links 
e@ 目录 
@ 上 一 节 : Go 语言 程序 初始 化 过 程 
e@ 下 一 节 : main.main 之 前 的 准备 


4.2 main.main 之 前 的 准备 


main.main 就 是 用 户 的 main 函 数 。 这 里 是 指 Go 的 runtime 在 进入 用 户 main 函 数 之 前 做 的 一 些 事情 


前 面 已 经 介绍 了 从 Go 程序 执行 后 的 第 一 条 指令 ， 到 启动 runtime.main 的 主要 流程 ， 比 如 其 中 要 设置 好 本 地 线程 存储 ， 设 置 好 
main 函 数 参 数 ， 根 据 环 境 变量 GOMAXPROCS 设 置 好 使 用 的 procs， 初 始 化 调度 器 和 内 存 管理 等 等 。 


接 下 来 将 是 从 runtime.main 到 main.main 之 间 的 一 些 过 程 。 注 意 ，main.main 是 在 runtime.main 有 函数 里 面 调用 的 。 不 过 在 调用 
main.main 之 前 ， 还 有 一 些 工 作 要 做 。 


sysmon 
在 main.main 执 行 之 前 ，Go 语 言 的 runtime 库 会 初始 化 一 些 后 台 任 务 ， 其 中 一 个 任务 就 是 sysmon。 


newm(sysmon, nil); 


newm 新 建 一 个 结构 体 M， 第 一 个 参数 是 这 个 结构 体 M 的 入 口 函 数 ， 也 就 说 会 在 一 个 新 的 物理 线程 中 运行 Sysmon 郊 数 。 由 此 
可 见 sSysmon 是 一 个 地 位 非常 高 的 后 台 任 务 ， 整 个 函数 体 一 个 死 循环 的 形式 ， 目 前 主要 处 理 两 个 事件 : 对 于 网 络 的 epoll 以 及 抢 
占 式 调 度 的 检测 。 大 致 过 程 如 下 : 


for(;;) { 
runtime.usleep(delay); 
if(lastpoll != 0 && lastpoll + 10*1000*1000 > now) { 
runtime.netpoll(); 


} 


retake(now); // 根据 每 个 P 的 状态 和 运行 ! 


sysmon 会 根据 系统 当前 的 繁忙 程度 睡 一 小 段 时 间 ， 然 后 每 隔 10ms 至 少 进 行 一 次 epoll 并 唤醒 相应 的 goroutine。 同 时 ， 它 还 会 
检测 是 否 有 P 长 时 间 处 于 Psyscall 状 态 或 Prunning 状 态 ， 并 进行 抢占 式 调度 。 


Scavenger 
Scavenger 是 另 一 个 后 台 任 务 ， 但 是 它 的 创建 跟 sysmon 有 点 区 别 : 


runtime.newproc(&scavenger, nil, 0, 0, runtime.main); 


newproc 创 建 一 个 goroutine， 第 一 个 参数 是 goroutine 运 行 的 函数 。scavenger 的 地 位 是 没有 sysmon 那 么 高 的 一 sysmon 是 
由 物理 线程 运行 的 ， 而 scavenger 只 是 由 goroutine 运 行 的 。 接 下 来 的 章节 会 说 明 goroutine 与 物理 线程 的 区 别 


那么 ，scavenger 执 行 什 么 工作 ? 它 又 为 什么 不 像 sysmon 那 样 呢 ? 其 实 scavenger 执 行 的 是 runtime.MHeap_Scavenger 函 
数 。 它 将 一 些 不 再 使 用 的 内 存 归 还 给 操作 系统 。Go 是 一 门 垃圾 回收 的 语言 ， 垃 圾 回收 会 在 系统 运行 过 程 中 被 触发 ， 内 存 会 被 
归还 到 Go 的 内 存 管 理 系 统 中 ，Go 的 内 存 管 理 是 基于 内 存 池 进行 重用 的 ， 而 这 个 函数 会 趴 正 地 将 内 存 归 还 给 操作 系统 。 


scavenger 显 然 没 有 sysmon 要 求 那么 高 ， 所 以 它 仅仅 是 一 个 普通 的 goroutine 而 不 是 一 个 线程 。 


main.main 在 这 些 后 台 任 务 运行 起 来 之 后 执行 ， 不 过 在 它 执行 之 前 ， 还 有 最 后 一 个 : main.init， 每 个 包 的 init 亏 数 会 在 包 使 用 
之 前 先 执行 。 


links 


@ 目录 
@ 上 一 节 : 系统 初始 化 


main.main 之 前 的 准备 


e@ 下 一 节 : goroutine 调 度 
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5. goroutine 调 度 
links 


e@ 上 一 节 : main.main 之 前 的 准备 
节 : 调度 器 相关 数据 结构 


5.1 调度 器 相关 数据 结构 
Go 的 调度 的 Ls ， 涉 及 到 几 个 重要 的 数据 结构 。 运 行 时 库 用 这 几 个 数据 结构 来 实现 goroutine 的 调度 ， 管 理 goroutine 和 物理 


线程 的 运行 。 结构 分 别 是 结构 体 G， 结 构 体 M， 结 构 体 P， 以 及 Sched 结 构 体 。 前 三 个 的 定义 在 文件 
eh ， 而 Sched 的 定义 在 runtime/proc.c 中 。Go 语 言 的 调度 相关 实现 也 是 在 文件 proc.c 中 。 


结构 体 G 


G 是 goroutine 的 缩写 ， 相 当 于 操作 系统 中 的 进程 控制 块 ， 在 这 里 就 是 goroutine 的 控制 结构 ， 是 对 goroutine 的 抽象 。 其 中 包括 
goid 是 这 个 goroutine 的 ID，status 是 这 个 goroutine 的 状态 ， 如 Gidle,Grunnable,Grunning,Gsyscall,Gwaiting,Gdead 等 。 


FUCEG 
uintptr stackguard; // 分 段 栈 的 可 用 空间 下 界 
uintptr stackbase; // 分 段 栈 的 栈 基 址 
Gobuf sched; // 进 程 切换 时 ， 利 用 Sched 域 来 保存 上 下 文 
uintptr stack0; 
FuncVal* fnstart; // goroutine 运 行 的 函数 
void* param; // 用 于 传递 参数 ， 睡 眠 时 其 它 goroutine 设 置 param， 唤 醒 时 此 goroutine 可 以 获取 
int16 status; // 状态 Gidle,Grunnable,Grunning,Gsyscall,Gwaiting,Gdead 
int64 goid; // goroutine 的 id 号 
G* schedlink; 
M* m; // for debuggers, but offset not hard-coded 
M* lockedm; // G 被 锁定 只 能 在 这 个 m 上 运行 
uintptr gopc ; // 创建 这 个 goroutine 的 go 表达 式 的 pc 
}; 
结构 体 G 中 的 部 分 域 如 上 所 示 。 可 以 看 到 ， 其 中 包含 了 栈 信息 stackbase 和 stackguard， 有 运行 的 函数 信息 fnstart。 这 些 就 足 


够 成 为 一 个 可 执行 的 单元 了 ， Re 了 于。 


goroutine 切 换 时 ， 上 下 文 信息 保存 在 结构 体 的 Sched 域 中 。goroutine 是 轻 量 级 的 线程 或 者 称 为 协 程 ， 切 换 时 并 不 必 陷 入 到 
操作 系统 内 核 中 ， 所 以 保存 过 程 很 轻 量 。 看 一 下 结构 体 G 中 的 Gobuf， 其 实 只 保存 了 当前 栈 指针 ， 程 序 计数 器 ， 以 及 
goroutine 自 身 。 


struct Gobuf 


{ 
// The offsets of these fields are known to (hard-coded in) libmach. 
uintptr sp; 
byte* pe 
G6” 9 
}; 


记录 g 是 为 了 恢复 当前 goroutine 的 结构 体 G 指 针 ， 运 行 时 库 中 使 用 了 一 个 常 驻 的 寄存 器 extern register 6* g ， 这 个 是 当前 

ee 结构 体 G 的 指针 。 这 样 做 是 为 了 快速 地 访问 goroutine 中 的 信息 ， 比 如 ，Go 的 栈 的 实现 并 没有 使 用 %ebp 寄 存 器 ， 
过 这 可 以 通过 g->stackbase 快 速 得 到 。"extern register" 是 由 6c，8c 等 实现 的 一 个 特殊 的 存储 。 在 ARM 上 它 是 实际 的 > 

> 个 槽 位 。 在 linux 系 统 中 ， 对 g 和 m 使 用 的 分 别 是 0(GS) 和 4(GS) 。 

要 注意 的 是 ， 链 接 器 还 会 根据 特定 操作 系统 改变 编译 器 的 输出 ， 例 如 ，6llinux 下 会 将 0(GS) 重 写 为 -16(FS) 。 A 

序 的 C 文 件 都 必须 包含 runtime.h 头 文件 ， 这 样 C 编 译 器 知道 避免 使 用 专用 的 寄存 器 。 


结构 体 M 


M 是 machine 的 缩写 ， 是 对 机 器 的 抽象 ， 每 个 m 都 是 对 应 到 一 条 操作 系统 的 物理 线程 。M 必 须 关 联 了 P 才 可 以 执行 Go 代码 ， 但 
是 当 它 处 理 阻塞 或 者 系统 调用 中 时 ， 可 以 不 需要 关联 P。 


struct M 
6 
Gr g0 // 带 有 调度 栈 的 goroutine 
G* gsignal; // signal-handling G 处 理 信号 的 goroutine 
void (*mstartfn)(void); 
Gr curg // M 中 当前 运行 的 goroutine 
[2 p; // 关联 P 以 执行 Go 代码 (如 果 没 有 执行 Go 代码 则 P 为 nil) 
Pe nextp; 
int32 to 
int32 mallocing; // 状 态 
int32 throwing; 
iNt32 gcing; 
Tn locks; 
int32 helpgc; // 不 为 0 表示 此 m 在 做 帮忙 gc。helpgc 等 于 n 只 是 一 个 编号 
bool blockingsyscall; 
bool spinning; 
Note park; 
M* alllink; // 这 个 域 用 于 链接 allm 
M* schedlink; 
MCache *mcache; 
人 lockedg; 
M* nextwaitm; // next M waiting for lock 
GCStats gcstats,; 


}; 


这 里 也 是 截取 结构 体 M 中 的 部 分 域 。 和 G 类 似 ，M 中 也 有 alllink 域 将 所 有 的 M 放 在 allm 链 表 中 。lockedg 是 某 些 情况 下 ，G 锁 定 
在 这 个 M 中 运行 而 不 会 切换 到 其 它 M 中 去 。M 中 还 有 一 个 MCache， 是 当前 M 的 内 在 的 缓存 。M 也 和 G 一 样 有 一 个 常 驻 寄存 器 
变量 ， 代 表 当 前 的 M。 同 时 存在 多 个 M， 表 示 同 时 存在 多 个 物理 线程 。 


结构 体 M 中 有 两 个 G 是 需要 关注 一 下 的 ， 一 个 是 curg， 代 表 结 构 体 M 当 前 绑 定 的 结构 体 G。 另 一 个 是 g0， 是 带 有 调度 栈 的 
goroutine， 这 是 一 个 比较 特殊 的 goroutine。 普 通 的 goroutine 的 栈 是 在 堆 上 分 配 的 可 增长 的 栈 ， 而 g0 的 栈 是 M 对 应 的 线程 的 
栈 。 所 有 调度 相关 的 代码 ， 会 先 切换 到 该 goroutine 的 栈 中 再 执行 。 


结构 体 P 


Go1.1 中 新 加 入 的 一 个 数据 结构 ， 它 是 Processor 的 缩写 。 结 构 体 P 的 加 入 是 为 了 提高 Go 程序 的 并 发 度 ， 实 现 更 好 的 调度 。M 
代表 OS 线程 。P 代 表 Go 代 码 执行 时 需要 的 资源 。 当 M 执 行 Go 代码 时 ， 它 需要 关联 一 个 P， 当 M 为 idle 或 者 在 系统 调用 中 时 ， 
也 需要 P。 有 刚好 GOMAXPROCS 个 P。 所 有 的 P 被 组 织 为 一 个 数组 ， 在 P 上 实现 了 工作 流 窃 取 的 调度 器 。 


struct P 

FE 
Lock; 
uint32 status; // Pidle 或 Prunning 等 
p* link; 
uint32 schedtick; ”// 每 次 调度 时 将 它 加 一 
M* m; // 链接 到 它 关联 的 M (nil if idle) 
MCache* mcache; 


G* runq[256]; 
int32 runqhead; 
int32 runqtail; 


// Available G's (status == Gdead) 
G* gfree; 
int32 gfreecnt 
byte pad[64] 
}; 


结构 体 P 中 也 有 相应 的 状态 : 


Pidle, 
Prunning, 
Psyscall, 
Pgcstop, 
Pdead, 


注意 ， 跟 G 不 同 的 是 ，P 不 存在 waiting 状态 。MCache 被 移 到 了 P 中 ， 但 是 在 结构 体 M 中 也 还 保留 着 。 在 P 中 有 一 个 
Grunnable 的 goroutine 队 列 ， 这 是 一 个 P 的 局 部 队列 。 当 PP 执行 Go 代码 时 ， 它 会 优先 从 自己 的 这 个 局 部 队列 中 取 ， 这 时 可 以 不 
用 加 锁 ， 提 高 了 并 发 度 。 如 果 发 现 这 个 队列 空 了 ， 则 去 其 它 P 的 队列 中 拿 一 半 过 来 ， 这 样 实现 工作 流 穷 取 的 调度 。 这 种 情况 
下 是 需要 给 调用 器 加 锁 的 。 


Sched 
Sched 是 调度 实现 中 使 用 的 数据 结构 ， 该 结构 体 的 定义 在 文件 proc.c 中 。 


struct Sched { 
Lock; 


uint64 goidgen; 


M* midle; // idle m's waiting for work 

NES2 nmidle; // number of idle m's waiting for work 
nese nmidlelocked; // number of locked m's waiting for work 
RS mcount // number of m's that have been created 
E22 maxmcount; // maximum number of m's allowed (or die) 


Pr* pidle; // idle P's 
uint32 npidle; //idle P 的 数量 
uint32 nmspinning; 


// Global runnable queue. 


G* runqhead; 
SG runqtail; 
int32 runqsize; 


// Global cache of dead G's. 
Lock gflock; 
G* gfree; 


int32 stopwait; 
Note stopnote; 
uint32 sysmonwait; 
Note sysmonnote; 


uint64 lastpoll; 


int32 profilehz; // cpu profiling rate 


大 多 数 需 要 的 信息 都 已 放 在 了 结构 体 M、G 和 P 中 ，Sched 结 构 体 只 是 一 个 壳 。 可 以 看 到 ， 其 中 有 M 的 idle 队 列 ，P 的 idle 队 
列 ， 以 及 一 个 全 局 的 就 绪 的 G 队 列 。Sched 结 构 体 中 的 Lock 是 非常 必须 的 ， 如 果 M 或 P 等 做 一 些 非 局 部 的 操作 ， 它 们 一 般 需要 
先 锁 住 调度 器 。 


links 


e@ 目录 
e@ 上 一 节 : goroutine 调 度 
e@ 下 一 节 : goroutine 的 生老病死 


调度 器 相关 数据 结构 
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5.2 goroutine 的 生老病死 


本 小 节 将 通过 goroutine 的 创建 ， 消 亡 ， 阻 塞 和 恢复 等 过 程 ， 来 观察 Go 语言 的 调度 策略 ， 这 里 就 称 之 为 生老病死 吧 。 整 个 Go 
语言 的 调度 系统 是 比较 复杂 的 ， 为 了 避免 结构 体 M 和 结构 体 P 引 入 的 其 它 干扰 ， 这 里 主要 将 注意 力 集中 到 结构 体 G 中 ， 以 
goroutine 为 主线 。 


goroutine 的 创建 


前 面 讲 函 数 调用 协议 时 说 过 go 关键 字 最 终 被 弄 成 了 runtime.newproc。 这 就 是 一 个 goroutine 的 出 生 ， 所 有 新 的 goroutine 都 是 
通过 这 个 函数 创建 的 。 


runtime.newproc(size, f, args) 功 能 就 是 创建 一 个 新 的 g， 这 个 函数 不 能 用 分 段 栈 ， 因 为 它 假 设 参数 的 放置 顺序 是 紧 接 着 函数 f 
的 〈 见 前 面 函 数 调 用 协议 一 章 ， 有 关 go 关 键 字 调 用 时 的 内 存 布 局 ) 。 分 段 栈 会 破坏 这 个 布局 ， 所 以 在 代码 中 加 入 了 标记 
#pragma textflag 7 表示 不 使 用 分 段 栈 。 它 会 调用 函数 hewproc1， 在 newproc1 中 可 以 使 用 分 段 栈 。 旦 正 的 工作 是 调用 
newproc1 完 成 的 。newproc1 进 行 下 面 这 些 动 作 。 


首先 ， 它 会 检查 当前 结构 体 M 中 的 PP 中 ， 是 否 有 可 用 的 结构 体 G。 如 果 有 ， 则 直接 从 中 取 一 个 ， 否 则 ， 需 要 分 配 一 个 新 的 结构 
体 G。 如 果 分 配 了 新 的 G， 需 要 将 它 挂 到 runtime 的 相关 队列 中 。 


获取 了 结构 体 G 之 后 ， 将 调用 参数 保存 到 g 的 栈 ， 将 sp， 文 环境 保存 在 g 的 sched 域 ， 这 样 整个 goroutine 就 准备 好 
了 ， 整 个 状态 和 一 个 运行 中 的 goroutine 被 中 断 时 一 样 ， 分 配 到 CPU， 它 就 可 以 继续 运行 。 


newg->sched.sp (uintptr)sp; 

newg->sched.pc (byte*)runtime.goexit; 

newg->sched.g = newg; 
runtime.gostartcallfn(&newg->sched, fn); 

newg->gopc = (uintptr)callerpc; 

newg->status = Grunnable; 

newg->goid = runtime.xadd64(&runtime.sched.goidgen, 1); 


后 将 这 个 “准备 好 ”的 结构 体 G 挂 到 当前 M 的 P 的 队列 中 。 这 里 会 给 予 新 的 goroutine 一 次 运行 的 机 会 ， 即 : 如 果 当 前 的 P 的 数 
目 没有 到 上 限 ， 也 没有 正在 自 旋 抢 CPU 的 M， 则 调用 wakep 将 P 立 即 投 入 运行 。 


wakep 函 数 唤醒 P 时 ， 调 度 器 会 试 着 寻找 一 个 可 用 的 M 来 绑 定 P， 儿 要 的 时 候 会 新 建 M。 让 我 们 看 看 新 建 M 的 函数 newm : 


// 新 建 一 个 n， 它 将 以 调用 fn 开始 ， 或 者 是 从 调度 器 开始 
static void 
newm(void(*fn)(void), P *p) 
{ 
M *mp; 
mp = runtime.allocm(p); 
mp->nextp = p; 
mp->mstartfn = fn; 
runtime.newosproc(mp, (byte*)mp->g0->stackbase); 


runtime.newm 功 能 跟 newproc 相 似 ,前 者 分 配 一 个 goroutine, 而 后 者 分 配 一 个 M。 其 实 一 个 M 就 是 一 个 操作 系统 线程 的 抽象 ， 可 
以 看 到 它 会 调用 runtime.newosproc。 


总 算 看 到 了 从 Go 的 运行 时 库 到 操作 系统 的 接口 ，runtime.newosproc( 平 台 相 关 的 ) 会 调用 系统 的 runtime.clone( 平 台 相 关 的 ) 来 
新 建 一 个 线程 ， 新 的 线程 将 以 runtime.mstart 为 入 口 函 数 。runtime.newosproc 是 个 很 有 意思 的 函数 ， 还 有 一 些 信 号 处 理 方面 
的 细节 ， 但 是 对 鉴于 我 们 是 专注 于 调度 方面 ， 就 不 对 它 进 行 更 细致 的 分 析 了 ， 感 兴趣 的 读者 可 以 自行 去 runtime/os_linux.c 看 
看 源 代码 。runtime.clone 是 用 汇编 实现 的 ,代码 在 sys_linux_amd64.s。 


既然 线程 是 以 runtime.mstart 为 入 口 的 ， 那 么 接 下 来 看 mstart 函 数 。 


mstart 是 runtime.newosproc 新 建 的 系统 线程 的 入 口 地 址 ， 新 线程 执行 时 会 从 这 里 开始 运行 。 新 线程 的 执行 和 goroutine 的 执行 
是 两 个 概念 ， 由 于 有 m 这 一 层 对 机 器 的 抽象 ， 是 m 在 执行 g 而 不 是 线程 在 执行 g。 所 以 线程 的 入 口 是 mstart ，g 的 执行 要 到 
schedule 才 算 入 口 。 函 数 mstart 最 后 调用 了 schedule 。 


终于 到 了 schedule 了 ! 


如 果 是 从 mstart 进 入 到 Schedule 的 ， 那 么 Schedule 中 逻辑 非常 简单 ， 大 概 就 这 几 步 : 


找到 一 个 等 待 运行 的 g 
如 果 g 是 锁定 到 某 个 M 的 ， 则 让 那个 M 运 行 
否则 ， 调 用 execute 函 数 让 g 在 当前 的 M 中 运行 


execute 会 恢复 newproc1 中 设置 的 上 下 文 ， 这 样 就 跳 转 到 新 的 goroutine 去 执行 了 。 从 newproc 出 生 一 直到 运行 的 过 程 分 析 ， 
到 此 结束 ! 


虽然 按 这 样 a 调 用 b，b 调 用 C，c 调 用 d，d 调 用 e 的 方式 去 分 析 源 代码 谁 看 都 会 晕 掉 ， 但 还 是 要 重复 一 遍 这 里 的 读 代码 过 程 ， 硕 
望 感 兴趣 的 读者 可 以 拿 着 注释 过 的 源码 按 顺序 走 一 遍 : 


newproc -> newproc1 -> (如 果 P 数 目 没 到 上 限 )wakep -> startm -> (可 能 引发 )newm -> newosproc -> (线程 入 口 )mstart -> 
Schedule -> execute -> goroutine 运 行 


假设 goroutine" 生 病 " 了 ， 它 要 进入 系统 调用 了 ， 暂 时 无 法 继续 执行 。 进 入 系统 调用 时 ， 如 果 系 统 调用 是 阻塞 的 ，goroutine 会 
被 剥夺 CPU， 将 状态 设置 成 Gsyscall 后 放 到 就 绪 队 列 。Go 的 syscall 库 中 提供 了 对 系统 调用 的 封装 ， 它 会 在 监 正 执行 系统 调用 
之 前 先 调用 函数 .entersyscall， 并 在 系统 调用 函数 返回 后 调用 .exitsyscall 函 数 。 这 两 个 函数 就 是 通知 Go 的 运行 时 库 这 个 
goroutine 进 入 了 系统 调用 或 者 完成 了 系统 调用 ， 调 度 器 会 做 相应 的 调度 。 


比如 syscall 包 中 的 Open 函 数 ， 它 会 调用 Syscall(SYS_OPEN, uintptr(unsafe.Pointer(_p0)), uintptr(mode), uintptr(perm)) 实 
现 。 这 个 函数 是 用 汇编 写 的 ， 在 syscall/lasm_linux_amd64.s 中 可 以 看 到 它 的 定义 : 


TEXT ‘Syscall(SB),7, $0 
CALL runtime.entersyscall(SB) 
MOVQ 16(SP), DI 
MOVQ 24(SP), SI 
MOVQ 32(SP), DX 
MOVQ $0, R10 
MOVQ $0, R8 
MOVQ $0, R9 
MOVQ 8(SP), AX // syscall entry 


SYSCALL 
CMPQ 。 AX，$oxfffffffffffff901 
JLS ok 


MOVQ $-1, 40(SP) 着 FE 
MOVQ $0, 48(SP) YD 
NEGQ AX 
MOVQ AX, 56(SP) // errno 
CALL runtime.exitsyscall(SB) 
RET 

ok: 
MOVQ AX, 40(SP) // ri 
MOVQ DX, 48(SP) YD 
MOVQ $0, 56(SP) // errno 
CALL runtime.exitsyscall(SB) 
RET 


可 以 看 到 它 进 系统 调用 和 出 系统 调用 时 分 别 调用 了 runtime.entersyscall 和 runtime.exitsyscall 函 数 。 那 么 ， 这 两 个 函数 做 什么 
特殊 的 处 理 呢 ? 


首先 ， 将 函数 的 调用 者 的 SPPC 等 保存 到 结构 体 G 的 sched 域 中 。 同 时 ， 也 保存 到 g->gcsp 和 g->gcpc 等 ， 这 个 是 跟 垃 圾 回收 相 
关 的 。 


然后 检查 结构 体 Sched 中 的 Sysmonwait 域 ， 如 果 不 为 0， 则 将 它 置 为 0， 并 调用 
runtime-notewakeup(&runtime:sched.sysmonnote)。 做 这 这 一 步 的 原因 是 ， 目 前 这 个 goroutine 要 进入 Gsyscall 状 态 了 ， 它 将 
要 让 出 CPU。 如 果 有 人 在 等 待 CPU 的 话 ， 会 通知 并 唤醒 等 待 者 ， 马 上 就 有 CPU 可 用 了 。 


接 下 来 ， 将 m 的 MCache 置 为 室 ， 并 将 m->p->m 置 为 室 ， 表 示 进 入 系统 调用 后 结构 体 M 是 不 需要 MCache 的 ， 并 且 P 也 被 剥离 
了 ， 将 P 的 状态 设置 为 PSyscall 。 


别 。 它 调用 的 releasep 和 handoffp。 


releasep 将 P 和 M 完 全 分 离 ， 使 p->m 为 室 ，m->p 也 为 室 ， 和 剥离 m->mcache， 并 将 P 的 状态 设置 为 Pidle。 注 意 这 里 的 区 别 ， 在 
非 阻 塞 的 系统 调用 entersyscall 中 只 是 设置 成 Psyscall， 并 且 也 没有 将 m->p 置 为 空 。 


handoffp 切 换 P。 将 P 从 处 于 syscall 或 者 locked 的 M 中 ， 切 换 出 来 交 给 其 它 M。 每 个 P 中 是 挂 了 一 个 可 执行 的 G 的 队列 的 ， 如 果 
这 个 队列 不 为 室 ， 即 如 果 P 中 还 有 G 需 要 执行 ， 则 调用 startm 让 P 与 某 个 M 绑 定 后 立刻 去 执行 ， 否 则 将 P 挂 到 idlep 队 列 中 。 


出 系统 调用 时 会 调用 到 runtime:exitsyscall， 这 个 函数 跟 进 系统 调用 做 相反 的 操作 。 它 会 先 检 查 当 前 m 的 P 和 它 状态 ， 如 果 PP 不 
空 且 状态 为 Psyscall， 则 说 明 是 从 一 个 非 阻塞 的 系统 调用 中 返回 的 ， 这 时 是 仍然 有 CPU 可 用 的 。 因 此 将 p->m 设 置 为 当前 m， 
将 p 的 mcache 放 回 到 m， 恢 复 g 的 状态 为 Grunning。 和 否则 ， 它 是 从 一 个 阻塞 的 系统 调用 中 返回 的 ， 因 此 之 前 m 的 P 已 经 完全 被 
剥离 了 。 这 时 会 查看 调用 中 是 否 还 有 idle 的 P， 如 果 有 ， 则 将 它 与 当前 的 M 绑 定 。 


如 果 从 一 个 阻塞 的 系统 调用 中 出 来 ， 并 且 出 来 的 这 一 时 刻 又 没有 idle 的 P 了 ， 要 怎么 办 呢 ? 这 种 情况 代码 当前 的 goroutine 无 法 
继续 运行 了 ， 调 度 器 会 将 它 的 状态 设置 为 Grunnable， 将 它 挂 到 全 局 的 就 绪 G 队 列 中 ， 然 后 停止 当前 m 并 调用 Schedule 函数 。 


goroutine 的 消亡 以 及 状态 变化 


goroutine 的 消亡 比较 简单 ， 注 意 在 函数 newproc1， 设 置 了 fnstart 为 goroutine 执 行 的 函数 ， 而 将 新 建 的 goroutine 的 sched 域 的 
pc 设置 为 了 坊 数 runtime.exit。 当 fnstart 吉 数 执行 完 返 回 时 ， 它 会 返回 到 runtime.exit 中 。 这 时 Go 就 知道 这 个 goroutine 要 结 
了 ，runtime.exit 中 会 做 一 些 回收 工作 ， 会 将 g 的 状态 设置 为 Gdead 等 ， 并 将 g 挂 到 P 的 free 队 列 中 。 


从 以 上 的 分 析 中 ， 其 实 已 经 基本 上 经 历 了 goroutine 的 各 种 状态 变化 。 在 newproc1 中 新 建 的 goroutine 被 设置 为 Grunnable 状 
态 ， 投 入 运行 时 设置 成 Grunning。 在 entersyscall 的 时 候 goroutine 的 状态 被 设置 为 Gsyscall， 到 出 系统 调用 时 根据 它 是 从 阻塞 
系统 调用 中 出 来 还 是 非 阻塞 系统 调用 中 出 来 ， 又 会 被 设置 成 Grunning 或 者 Grunnable 的 状态 。 在 goroutine 最 终 退 出 的 
runtime.exit 函 数 中 ，goroutine 被 设置 为 Gdead 状 态 。 


等 等 ， 好 像 缺 了 什么 ? 是 的 ，Gidle 始 终 没 有 出 现 过 。 这 个 状态 好 像 实际 上 没有 被 用 到 。 只 有 一 个 runtime.park 函 数 会 使 
goroutine 进 入 到 Gwaiting 状 态 ， 但 是 park 这 个 有 什么 作用 我 暂时 还 没 看 懂 .… 


goroutine 的 状态 变迁 图 : 


5.3 设计 与 演化 


其 实 讲 一 个 东西 ， 讲 它 是 什么 样 是 不 足够 的 。 如 果 能 讲 清楚 它 为 什么 会 是 这 样子 ， 则 会 举一反三 。 为 了 理解 goroutine 的 本 
质 ， 这 里 将 从 最 基本 的 线程 池 讲 起 ， 谈 谈 Go 调 度 设 计 背 后 的 故事 ， 讲 清楚 它 为 什么 是 这 样子 。 


线程 池 


先 看 一 些 简单 点 的 吧 。 一 个 常规 的 线程 池 + 任 务 队 列 的 模型 如 图 所 示 : 


把 每 个 工作 线程 叫 Worker 的 话 ， 每 条 线程 运行 一 个 worker， 每 个 worker 做 的 事情 就 是 不 停 地 从 队列 中 取出 任务 并 执行 


while(!empty(queue)) { 
q = get(queue); // 从 任务 队列 中 取 一 个 (涉及 加 锁 等 ) 
9->callback(); // 执 行 该 任务 


当然 ， 这 是 最 简单 的 情形 ， 但 是 一 个 很 明显 的 问题 就 是 一 个 进入 callback 之 后 ， 就 失去 了 控制 权 。 因 为 没有 一 个 调度 器 层 的 
东西 ， 一 个 任务 可 以 执行 很 长 很 长 时 间 一 直 占 用 的 worker 线 程 ， 或 者 阻塞 于 io 之 类 的 。 


也 许 用 Go 语言 表述 会 更 地 道 一 些 。 好 吧 ， 那 么 让 我 们 用 Go 语言 来 描述 。 假 设 我 们 有 一 些 " 任 务 ”， 任 务 是 一 个 可 运行 的 东西 ， 
也 就 是 只 要 满足 Run 函 数 ， 它 就 是 一 个 任务 。 所 以 我 们 就 把 这 个 任务 叫 作 接口 G 吧 。 


type G interface { 
Run( ) 
} 


我 们 有 一 个 全 局 的 任务 队列 ， 里 面包 含 很 多 可 运行 的 任务 。 线 程 池 的 各 个 线程 从 全 局 的 任务 队列 中 取 任 务 时 ， 显 然 是 需要 并 
发 保护 的 ， 所 以 有 下 面 这 个 结构 体 : 


type Sched struct { 
allg []6 
lock *sync.Mutex 


以 及 它 的 变量 


var sched Sched 


每 条 线程 是 一 个 Worker， 这 里 我 们 给 worker 换 个 名 字 ， 就 把 它 叫 M 吧 。 前 面 已 经 说 过 了 ，worker 做 的 事情 就 是 不 停 的 去 任务 
队列 中 取 一 个 任务 出 来 执行 。 于 是 用 Go 语言 大 概 可 以 写成 这 样子 : 


func M() { 
fOr’ 

sched.1lock.Lock() // 互 斥 地 从 就 绪 G 队 列 中 取 一 个 g 出 来 运行 

if sched.allg >0f 
g := sched.allg[0] 
sched.allg = sched.allg[1:] 
sched.1lock.Unlock() 
g.Run() // 运 行 它 

} else { 
sched.1lock.Unlock() 

} 


接 下 来 ， 将 整个 系统 局 动 : 


for i:=0; i<GOMAXPROCS,; i++ { 
go M() 
} 


假定 我 们 有 一 个 满足 G 接 口 的 main， 然 后 它 在 自己 的 Run 中 不 断 地 将 新 的 任务 挂 到 sched.allg 中 ， 这 个 线程 池 + 任 务 队列 的 系 
统 模 型 就 会 一 直 运 行 下 去 。 


可 以 看 到 ， 这 里 在 代码 取 中 故意 地 用 Go 语言 中 的 G，M， 共 至 包括 GOMAXPROCS 等 取 名 字 。 其 实 本 质 上 ，Go 语 言 的 调度 层 
无 非 就 是 这 样 一 个 工作 模式 的 : 几 条 物理 线程 ， 不 停 地 取 goroutine 运 行 。 


系统 调用 


上 面 的 情形 太 简 单 了 ， 人 运行 ， 这 个 还 不 能 称 之 为 调度 。 调 度 之 所 以 为 调度 ， 是 因为 有 一 些 复 
杂 的 控制 机 制 ， 比 如 哪个 goroutine 应 该 被 运行 ， 它 应 该 运行 多 久 ， 什 么 时 候 将 它 换 出 来 。 用 前 面 的 代码 来 说 明 Go 的 调度 会 有 
一 些小 问题 。Run 函 数 会 一 直 执 行 ， 在 它 结 束 之 前 不 会 返回 到 调用 器 层面 。 那 么 假设 上 面 的 任务 中 Run 进 入 到 一 个 阻塞 的 系 
统 调 用 了 ， 那 么 M 也 就 跟着 一 起 阻塞 了 ， 实 际 工作 的 线程 就 少 了 一 个 ， 无 法 充分 利用 CPU 。 


一 个 简单 的 解决 办 法 是 在 进入 系统 调用 之 前 再 制造 一 个 M 出 来 干 活 ， 这 样 就 填补 了 这 个 进入 系统 调用 的 M 的 空缺 ， 始 终 保 证 
有 GOMAXPROCS 个 工作 线程 在 干 活 了 。 


func entersyscall() { 
go M() 
} 


那么 出 系统 调用 时 怎么 办 呢 ? 如 果 让 M 接 着 干 活 ， 岂 不 超过 了 GOMAXPROCS 个 线程 了 ?所 以 这 个 M 不 能 再 干 活 了 ， 要 限制 
干 活 的 M 个 数 为 GOMAXPROCS 个 ， 多 了 则 让 它们 闲置 (物理 线程 比 CPU 多 很 多 就 没 意 义 了 ， 让 它们 相互 抢 CPU 反而 会 降低 
利用 率 ) 。 


func exitsyscall() { 
if len(allm) >= GOMAXPROCS { 
sched.lock.Lock() 
sched.allg = append(sched.allg, 9g) // 把 g 放 回 到 队列 中 
sched.lock.Unlock() 
time.Sleep() // 这 个 M 不 再 干 活 


于 是 就 变 成 了 这 样子 : 


这 个 也 很 好 理解 ， 就 像 线程 池 做 负载 调节 一 样 ， 当 任务 队列 很 长 后 ， 忙 不 过 来 了 ， 则 再 开 几 条 线程 出 来 。 而 如 果 任务 队 
es i 


协 程 与 保存 上 下 文 
大 家 都 知道 阻塞 于 系统 调用 ， 会 白白 浪费 CPU。 而 使 用 异步 事件 或 回调 的 思维 方式 又 十 分 反 人 类 。 上 面 的 模型 既然 这 么 简单 
明了 ， 为 什么 不 这 么 用 呢 ? 其 实 上 面 的 东西 看 上 去 简单 ， 但 实现 起 来 确 不 那么 容易 。 


将 一 个 正在 执行 的 任务 yield 出 去 ， 再 在 茶 个 时 刻 再 弄 回来 继续 运行 ， 这 就 涉及 到 一 个 麻烦 的 问题 ， 即 保存 和 恢复 运行 时 的 上 
下 文 环境 。 





在 此 先 引 入 协 程 的 概念 。 协 程 是 轻 量 级 的 线程 ， 它 相对 线程 的 优势 就 在 于 协 程 非常 轻 量 级 ， 进 行 切 换 以 及 保存 上 下 文 环境 代 
价 非常 的 小 。 协 程 的 具体 的 实现 方式 有 多 种 ， 上 面 就 是 其 中 一 种 基于 线程 池 的 实现 方式 。 每 个 协 程 是 一 个 任务 ， 可 以 保存 和 
恢复 任务 运行 时 的 上 下 文 环 境 。 


协 程 一 类 的 东西 一 般 会 提供 类 似 yield 的 函数 。 协 程 运行 到 一 定时 候 就 主动 调用 yield 放 育 自 己 的 执行 ， 把 自己 再 次 放 回 到 任务 
队列 中 等 待 下 一 次 调用 时 机 等 等 。 


其 实 Go 语 言 中 的 goroutine 就 是 协 程 。 每 个 结构 体 G 中 有 一 个 sched 域 就 是 用 于 保存 自己 上 下 文 的 。 这 样 ， 这 种 goroutine 就 可 
以 被 换 出 去 ， 再 换 进 来 。 这 种 上 下 文保 存在 用 户 态 完成 ， 不 必 陷 入 到 内 核 ， 非 常 的 轻 量 ， 速 度 很 快 。 保 存 的 信息 很 少 ， 只 有 
当前 的 PC,SP 等 少量 信息 。 只 是 由 于 要 优化 ， 所 以 代码 看 上 去 更 复杂 一 些 ， 比 如 要 重用 内 存 空 间 所 以 会 有 gfree 和 mhead 之 类 
的 东西 。 


Go1.0 


在 前 面 的 代码 中 ， 线 程 与 M 是 直接 对 应 的 关系 ， 这 个 解 耦 还 是 不 够 。Go1.0 中 将 M 抽 出 来 成 为 了 一 个 结构 体 ，startm 函 数 是 线 
程 的 入 口 地 址 ， 而 goroutine 的 入 口 地 址 是 go 表达 式 中 的 那个 函数 。 总 体 上 跟 上 面 的 结构 差不多 ， 进 出 系统 调用 的 时 候 
goroutine 会 跟 M 一 起 进入 到 系统 调用 中 ，schedule 中 会 匹配 g 和 m， 让 空 闪 的 m 来 运行 g。 如 果 检 测 到 干 活 的 数量 少 于 
GOMAXPROCS 并 且 没 有 空 闪 着 的 m， 则 会 创建 新 的 m 来 运行 g。 出 系统 调用 的 时 候 ， 如 果 已 经 有 GOMAXPROCS 个 m 在 干 
活 了 ， 则 这 个 出 系统 调用 的 m 会 被 挂 起 ， 它 的 g 也 会 被 挂 到 待 运 行 的 goroutine 队 列 中 。 


在 Go 语言 中 m 是 machine 的 缩写 ， 也 就 是 机 器 的 抽象 。 它 被 设计 成 了 可 以 运行 所 有 的 G。 比 如 说 一 个 g 开 始 在 某 个 m 上 运行 ， 
经 过 几 次 进出 系统 调用 之 后 ， 可 能 运行 它 的 m 挂 起 了 ， 其 它 的 m 会 将 它 从 队列 中 取出 并 继续 运行 。 


每 次 调度 都 会 涉及 对 g 和 m 等 队列 的 操作 ， 这 些 全 局 的 数据 在 多 线程 情况 下 使 用 就 会 涉及 到 大 量 的 锁 操 作 。 在 频繁 的 系统 调用 
中 这 将 是 一 个 很 大 的 开销 。 为 了 减少 系统 调用 开销 ，Go1.0 在 这 里 做 了 一 些 优 化 的 。1.0 版 中 ， 在 它 的 Sched 结 构 体 中 有 一 个 
atomic 字 段 ， 类 型 是 一 个 volatile 的 无 符 32 位 整 型 。 


// sched 中 的 原子 字段 是 一 个 原子 的 uint32， 存 放下 列 域 

// 15 位 mcpu  -- 正 在 占用 Cpu 运 行 的 m 数 量 (进入 syscall 的 m 是 不 占用 cpu 的 ) 
// 15 位 mcpumax -- 最 大 允许 这 么 多 个 m 同 时 使 用 cpu 

// 1 位 waitstop -- 有 g 等 待 结束 

// 1 位 gwaiting -- 等 待 队列 不 为 空 ， 有 g 处 于 waiting 状 态 


// [15 bits] mcpu number of m's executing on cpu 
KK [15 bits] mcpumax max number of m's allowed on cpu 
J [1 bit] waitstop some g is waiting on stopped 


Ei [1 bit] gwaiting gwait != 0 


这 些 信 息 是 进行 系统 调用 和 出 系统 调用 时 需要 用 到 的 ， 它 会 决定 是 否 需要 进入 到 调度 器 层面 。 直 接 用 CAS 操 作 Sched 的 
atomic 字 段 判 断 ， 将 它们 打包 成 一 个 字 节 使 得 可 以 通过 一 次 原子 读 写 获取 它们 而 不 用 加 锁 。 这 将 极 大 的 减少 那些 大 量 使 用 系 
统 调用 或 者 cgo 的 多 线程 程序 的 contention。 


出 系统 调用 以 外 ， 操 作 这 些 2 会 发 生 于 持 有 调度 器 锁 的 时 候 ， 因 此 goroutines 不 用 担心 其 它 egorouine 人 导 这 此 他 
J o° 特别 是 9 进 出 系统 ? 调用 只 读 mcpumax » waitstop 和 gwaiting 机 决 不 会 写 他 们 因此 ， ，( 持 有 调度 度 器 外 区 ) 写 
完全 不 用 担心 会 发 生 写 冲 突 。 


总 体 上 看 ，Go1.0 调 度 设计 结构 比较 简单 ， 代 码 也 比较 清晰 。 但 是 也 存在 一 些 问题 。 这 样 的 调度 器 设计 限制 了 Go 程序 的 并 发 
度 。 测 试 发 现 有 14% 是 的 时 间 浪 费 在 了 runtime.futex() 中 。 


具体 地 看 : 


1. 单个 全 局 锁 (Sched.Lock) 用 来 保护 所 有 的 goroutine 相 关 的 操作 (创建 ， 完 成 ， 调 度 等 ) 。 

2. Goroutine 切 换 。 工 作 线 程 在 各 自 之 前 切换 goroutine， 这 导致 延迟 和 额外 的 负担 。 每 个 M 都 必须 可 以 执行 任何 的 G. 
3. 内 存 缓存 MCache 是 每 个 M 的 。 而 当 M 阻 塞 后 ， 相 应 的 内 存 资源 也 被 一 起 拿 走 了 。 

4. 过 多 的 线程 阻塞 、 恢 复 。 系 统 调用 时 的 工作 线程 会 频繁 地 阻塞 ， 恢 复 ， 造 成 过 多 的 负担 。 


第 一 点 很 明显 ， 所 有 的 goroutine 都 用 一 个 锁 保 护 的 ， 这 个 锁 粒 度 是 比较 大 的 ， 只 要 goroutine 的 相关 操作 都 会 锁 住 调 度 。 然 后 
， ， 前 面 说 了 ， 每 个 M 都 是 可 以 执行 所 有 的 goroutine 的 。 举 个 很 简单 的 类 比 ， 多 核 CPU 中 每 个 核 都 去 执行 不 同 
线程 的 代码 ， 这 显然 是 不 利于 缓存 的 局 部 性 的 ， 切 换 开 销 也 会 变 大 。 内 存 缓存 和 其 它 缓存 是 关联 到 所 有 的 M 的 ， 而 事实 上 它 
本 只 0 行 Go 代码 的 M( 阻 塞 于 系统 调用 的 M 是 不 需要 mcache 的 )。 运 行 着 Go 代码 的 M 和 所 有 M 的 比例 可 能 高 达 
1:100。 这 导致 过 度 的 资源 消耗 。 


Go1.1 


Go1.1 相 对 于 1.0 一 个 重要 的 改动 就 是 重新 调用 了 调度 器 。 前 面 已 经 看 到 ， 老 版 本 中 的 调度 
式 是 引入 Processor 的 概念 ， 并 在 Processors 之 上 实现 工作 流 窃 取 的 调度 器 。 


党 


实现 是 存在 一 些 问 题 的。 解决 方 


Es 


M 代 表 OS 线 程 。P 代 表 Go 代 码 执 行 时 需要 的 资源 。 当 M 执 行 Go 代 码 时 ， 它 需要 关联 一 个 P， 当 M 为 idle 或 者 在 系统 调用 中 时 ， 
它 也 需要 P。 有 刚好 GOMAXPROCS 个 P。 所 有 的 P 被 组 织 为 一 个 数组 ， 工 作 流 窃取 需要 这 个 条 件 。GOMAXPROCS 的 改变 涉 
及 到 stop/start the world 来 resize 数 组 P 的 大 小 。 

gfree 和 grunnable 从 sched 中 移 到 P 中 。 这 样 就 解决 了 前 面 的 单个 全 局 锁 保 护 用 有 goroutine 的 问题 ， 由 于 goroutine 现 在 被 分 到 
每 个 P 中 ， 它 们 是 P 局 部 的 goroutine， 因 此 P 只 管 去 操作 自己 的 goroutine 就 行 了 ， 不 会 与 其 它 P 上 的 goroutine 冲 突 。 全 局 的 
grunnable 队 列 也 仍然 是 存在 的 ， 只 有 在 P 去 访问 全 局 grunnable 队 列 时 才 涉 及 到 加 锁 操 作 。mcache 从 M 中 移 到 P 中 。 不 过 当前 
还 不 彻底 ， 在 M 中 还 是 保留 着 mcache 域 的 。 

加 入 了 P 后 ，sched.atomic 也 从 Sched 结 构 体 中 去 掉 了 。 


当 一 个 新 的 G 创 建 或 者 现 有 的 G 交 成 lunnable， 它 将 一 个 runnable 的 goroutine 推 到 当前 的 P。 当 P 完 成 执行 G， 它 将 G 从 自己 的 
runnable goroutine 中 pop 出 去 。 如 果 链 为 室 ，P 会 随机 从 其 它 P 中 窃取 一 半 的 可 运行 的 goroutine 。 

当 M 创 建 一 个 新 G 的 时 候 ， 必 须 保证 有 另 一 个 M 来 执行 这 个 G。 类 似 的 ， 当 一 个 M 进 入 到 系统 调用 时 ， 必 须 保证 有 另 一 个 M 来 
执行 G 的 代码 。 

2 层 自 旋 : 关联 了 P 的 处 于 idle 状 态 的 的 M 自 旋 寻 找 新 的 G ; 没有 关联 P 的 M 自 旋 等 待 可 用 的 P。 最 多 有 GOMAXPROCS 个 自 旋 
的 M。 只 要 有 第 二 类 M 时 第 一 类 M 就 不 会 阻塞 。 


5.5 抢占 式 调度 


goroutine 本 来 是 设计 为 协 程 形式 ， 但 是 随 着 调度 器 的 实现 越 来 越 成 熟 ，Go 在 1.2 版 中 开始 引入 比较 初级 的 抢占 式 调度 。 


从 一 个 bug 说 起 
人 式 的 。 用 户 负 责 让 各 个 goroutine 交 互 合作 完成 任务 。 一 个 goroutine 只 有 在 涉 
及 到 加 锁 ， 读 写 通道 或 者 主动 让 出 CPU 等 操作 时 才 会 触发 切换 。 


垃圾 回收 器 是 需要 stop the world 的 。 如 果 垃 圾 回收 器 想 要 运行 了 ， 那 么 它 必须 先 通知 其 它 的 goroutine 合 作 停 下 来 ， 这 会 造成 
较 长 时 间 的 等 待 时 间 。 考 虑 一 种 很 极端 的 情况 ， 所 有 的 goroutine 都 停 下 来 了 ， 只 有 其 中 一 个 没有 停 ， 那 么 垃圾 回收 就 会 一 直 
等 待 着 没有 停 的 那 一 个 。 


抢占 式 调度 可 以 解决 这 种 问题 ， 在 抢占 式 情况 下 ， 如 果 一 个 goroutine 运 行 时 间 过 长 ， 它 就 会 被 剥夺 运行 权 。 


总 体 思 路 
引入 抢占 式 调度 ， 会 对 最 初 的 设计 产生 比较 大 的 影响 ，Go 还 只 是 引入 了 一 些 很 初级 的 抢占 ， 并 没有 像 操作 系统 调度 那么 
杂 ， 没 有 对 goroutine 分 时 间 片 ， 设 置 优先 级 等 。 


只 有 长 时 间 阻 塞 于 系统 调用 ， 或 者 运行 了 较 长 时 间 才 会 被 抢占 。runtime 会 在 后 台 有 一 个 检测 线程 ， 它 会 检测 这 些 情况 ， 并 通 
知 goroutine 执 行 调度 


目前 并 没有 直接 在 后 台 的 检测 线程 中 做 处 理 调度 器 相关 逻辑 ， 只 是 相当 于 给 goroutine 加 了 一 个 "标记 ”， 然 后 在 它 进入 函数 时 
才 会 触发 调度 。 这 么 做 应 该 是 出 于 对 现 有 代码 的 修改 最 小 的 考虑 。 


SySmon 

前 面 讲 Go 程 序 的 初始 化 过 程 中 有 提 到 过 ，runtime 开 了 一 条 后 台 线 程 ， 运 行 一 个 sysmon 兄 数 。 这 个 函数 会 周期 性 地 做 epoll 操 
作 ， 同 时 它 还 会 检测 每 个 P 是 否 运 行 了 较 长 时 间 。 

如 果 检 测 到 某 个 P 状 态 处 于 Psyscall 起 过 了 一 个 sysmon 的 时 间 周 期 (20us)， 并 且 还 有 其 它 可 运行 的 任务 ， 则 切换 P。 


如 果 检 测 到 某 个 P 的 状态 为 Prunning， 并 且 它 已 经 运行 了 超过 10ms， 则 人 当前 0 
StackPreempt。 这 个 操作 其 实 是 相当 于 加 上 一 个 标记 ， 通 知 这 个 G 在 合适 时 机 进行 调度 


目前 这 里 只 是 尽 最 大 努力 送 达 ， 但 并 不 保证 收 到 消息 的 goroutine 一 定 会 执行 调度 让 出 运行 权 。 


morestack 的 修改 


前 面 说 的 ， 将 stackguard 设 置 为 StackPreempt 实 际 上 是 一 个 比较 trick 的 代码 。 我 们 知道 Go 会 在 每 个 函数 入 口 处 比较 当前 的 栈 
寄存 器 值 和 stackguard 值 来 决定 是 否 触发 morestack 函 数 。 
将 stackguard 设 置 为 StackPreempt 作 用 是 进入 函数 时 必定 触发 morestack， 然 后 在 morestack 中 再 引发 调度 


看 一 下 StackPreempt 的 定义 ， 它 是 大 于 任何 实际 的 栈 寄存 器 的 值 的 : 


// 9xfffffade in hex . 
#define StackPreempt ((uint64)-1314) 


然后 在 morestack 中 加 了 一 小 段 代码 ， 如 果 发 现 stackguard 为 StackPreempt， 则 相当 于 调用 runtime.Gosched 。 


所 以 ， 到 目前 为 止 Go 的 抢占 式 调 度 还 是 很 初级 的 ， 比 如 一 个 goroutine 运 行 了 很 久 ， 但 是 它 并 没有 调用 另 一 个 函数 ， 则 它 不 会 
被 抢占 。 当 然 ， 一 个 运行 很 久 却 不 调用 函数 的 代码 并 不 是 多 数 情 况 。 


6 内 存 管理 


内 存 管理 是 非常 重要 的 一 个 话题 。 关 于 编程 语言 是 否 应 该 支持 垃圾 回收 就 有 个 搞笑 的 和 争论， 一派 人 认为 ， 内 存 管理 太 重 要 
了 ， 而 手动 管理 麻烦 且 容易 出 错 ， 所 以 我 们 应 该 交 给 机 器 去 管理 。 另 一 派 人 则 认为 ， 内 存 管理 太 重 要 了 ! 所 以 如 果 交 给 机 器 
管理 我 不 能 放心 。 和 争论 归 争 论 ， 但 不 管 哪 一 派 ， 大 家 对 内 存 管 理 重 要 性 的 认同 都 是 勿 庸 质 疑 的 。 

Go 是 一 门 带 垃圾 回收 的 语言 ，Go 语 言 中 有 指针 ， 却 没有 C 中 那么 灵活 的 指针 操作 。 大 多 数 情况 下 是 不 需要 用 户 自己 去 管理 内 
存 的 ， 但 是 理解 Go 语言 是 如 何 做 内 存 管 理 对 于 写 出 优秀 的 程序 是 大 有 帮助 的 。 


本 章 将 从 两 个 方面 来 看 Go 中 的 内 存 管 理 机 制 ， 一 个 方面 是 内 存 池 ， 另 一 个 方面 是 垃圾 回收 。 


6.1 内 存 池 


概述 


Go 的 内 存 分 配器 采用 了 跟 tcmalloc 库 相同 的 实现 ， 是 一 个 带 内 存 池 的 分 配器 ， 底 层 直接 调用 操作 系统 的 mmap 等 函数 。 


作为 一 个 内 存 池 ， 回 忆 一 下 跟 它 相关 的 基本 部 分 。 首 先 ， 它 会 向 操作 系统 申请 大 块 内 存 ， 自 己 管 理 这 部 分 内 存 。 然 后 ， 它 是 
一 个 池子 ， 当 上 层 释 放 内 存 时 它 不 实际 归还 给 操作 系统 ， 而 是 放 回 池子 重复 利用 。 接 着 ， 内 存 管理 中 必然 会 考虑 的 就 是 内 存 
雁 片 问题 ， 如 果 尽 量 避 免 内 存 碎片 ， 提 高 内 存 利 用 率 ， 像 操作 系统 中 的 首次 适应 ， 最 佳 适应 ， 最 差 适应 ， 伙 伴 算 法 都 是 一 些 
相关 的 背景 知识 。 另 外 ，Go 是 一 个 支持 goroutine 这 种 多 线程 的 语言 ， 所 以 它 的 内 存 管理 系统 必须 也 要 考虑 在 多 线程 下 的 稳定 
性 和 效率 问题 。 


在 多 线程 方面 ， 很 自然 的 做 法 就 是 每 条 线程 都 有 自己 的 本 地 的 内 存 ， 然 后 有 一 个 全 局 的 分 配 链 ， 当 某 个 线程 中 内 存 不 足 后 就 
向 全 局 分 配 链 中 申请 内 存 。 这 样 就 避免 了 多 线程 同时 访问 共享 变量 时 的 加 锁 。 在 避免 内 存 碎片 方面 ， 大 块 内 存 直接 按 页 为 单 
位 分 配 ， 小 块 内 存 会 切 成 各 种 不 同 的 国定 大 小 的 块 ， 申 请 做 任意 字 节 内 存 时 会 向 上 取 整 到 最 接近 的 块 ， 将 整 块 分 配给 申请 者 
以 避免 随意 切割 。 


Go 中 为 每 个 系统 线程 分 配 一 个 本 地 的 MCache( 前 面 介 绍 的 结构 体 M 中 的 MCache 域 )， 少 量 的 地 址 分 配 就 直接 从 MCache 中 分 
配 ， 并 且 定 期 做 垃圾 回收 ， 将 线程 的 MCache 中 的 空闲 内 存 返 回 给 全 局 控制 堆 。 小 于 32K 为 小 对 象 ， 大 对 象 直接 从 全 局 控制 堆 
上 以 页 (4k) 为 单位 进行 分 配 ， 也 就 是 说 大 对 象 总 是 以 页 对 齐 的 。 一 个 页 可 以 存 入 一 些 相同 大 小 的 小 对 象 ， 小 对 象 从 本 地 内 存 
链表 中 分 配 ， 大 对 象 从 中 心 内 存 堆 中 分 配 。 


大 约 有 100 种 内 存 块 类 别 ， 每 一 类 别 都 有 自己 对 象 的 空闲 链表 。 小 于 32KkB 的 内 存 分 配 被 向 上 取 整 到 对 应 的 尺寸 类 别 ， 从 相应 
的 空闲 链表 中 分 配 。 一 页 内 存 只 可 以 被 分 裂 成 同一 种 尺寸 类 别 的 对 象 ， 然 后 由 空闲 链表 分 配器 管理 。 


分 配器 的 数据 结构 包括 : 


e@ FixAlloc: 固定 大 小 (128kB) 的 对 象 的 空闲 链 分 配器 ,被 分 配器 用 于 管理 存储 
e。 MHeap: 分 配 堆 , 按 页 的 粒度 进行 管理 (4KB) 

e。 MSpan: 一 些 由 MHeap 管 理 的 页 

e。 MCentral: 对 于 给 定 尺 寸 类 别 的 共享 的 free list 

e。 MCache: 用 于 小 对 象 的 每 M 一 个 的 cache 


我 们 可 以 将 Go 语言 的 内 存 管 理 看 成 一 个 两 级 的 内 存 管 理 结构 ，MHeap 和 MCache 。 上 面 一 级 管理 的 基本 单位 是 页 ， 用 于 分 配 
大 对 象 ， 每 次 分 配 都 是 若干 连续 的 页 ， 也 就 是 若干 个 4KB 的 大 小 。 使 用 的 数据 结构 是 MHeap 和 MSpan， 用 BestFit 算 法 做 分 
配 ， 用 位 示 图 做 回收 。 下 面 一 级 管理 的 基本 单位 是 不 同类 型 的 国定 大 小 的 对 象 ， 更 像 一 个 对 象 池 而 不 是 内 存 池 ， 用 引用 计数 
做 回收 。 下 面 这 一 级 使 用 的 数据 结构 是 MCache 。 


MHeap 


MHeap 层 次 用 于 直接 分 配 较 大 (>32kB) 的 内 存 空间 ， 以 及 给 MCentral 和 MCache 等 下 层 提供 空间 。 它 管理 的 基本 单位 是 
MSpan。MSpan 是 一 个 表示 若干 连续 内 存 页 的 数据 结构 ， 简 化 后 如 下 : 


struct MSpan 
下 


PageID SS 二 SF // starting page number 


uintptr npages; // number of pages in span 


}; 


通过 一 个 基地 址 +( 页 号 * 页 大 小 )， 就 可 以 定位 到 这 个 MSpan 的 实际 的 地 址 空间 了 ， 基 地 址 是 在 MHeap 中 存储 了 的 。 


MHeap 负 责 将 MSpan 组 织 和 管理 起 来 ，MHeap 数 据 结构 中 的 重要 部 分 如 图 所 示 。 


free 是 一 个 分 配 池 ， 从 freeli] 出 去 的 MSpan 每 个 大 小 都 页 的 ,总 共 256 个 槽 位。 再 大 了 之 后 ， 大 小 就 不 固定 了 ， 由 large 链 起 
分 配 过 程 : 如 果 能 从 free| 的 分 配 池 中 分 配 ， 则 从 其 中 分 配 。 如 果 发 生 切 割 则 将 剩余 部 分 放 回 free[] 中 。 比 如 要 分 配 2 页 大 小 的 
空间 ， 从 图 上 2 号 楼 位 开始 寻找 ， 直 到 4 号 楼 位 有 可 用 的 MSpan， 则 拿 一 个 出 来 ， 切 出 两 页 ， 剩 余 的 部 分 再 放 回 2 号 槽 位 中 。 

否则 从 large 链 表 中 去 分 配 ， 按 BestFit 算 法 去 找 一 块 可 用 空间 。 


化 整 为 零 简单 ， 化 零 为 整 麻烦 。 回 收 的 时 候 如 果 相 邻 的 块 是 未 使 用 的 ， 要 进行 合并 ， 否 则 一 直 划 分 下 去 就 会 产生 很 多 碎片 ， 
找 不 到 一 个 足够 大 小 的 连续 空间 。 因 为 涉及 到 合并 ， 回 收 会 比分 配 复杂 一 些 ， 所 有 就 有 什么 伙伴 算法 ， 边 界 标识 算法 ， 位 示 
图 之 类 的 。 


Go 在 这 里 使 用 的 类 似 于 位 示 图 。 可 以 看 到 MHeap 中 有 一 个 


MSpan *map[1I<<MHeapMap_Bits]， 


这 个 数组 是 一 个 用 于 将 内 存 地 址 映射 成 MSpan 结 构 体 的 表 ， 每 个 内 存 页 都 会 对 应 到 map 中 的 一 个 MSpan 指 针 ， 通 过 map 就 能 
够 将 地 址 映射 到 相应 的 MSpan。 St ， 给 定 一 个 地 址 ， 可 以 通过 a 小 得 到 页 号 ， 再 通过 map[ 页 号 ] 就 得 
到 了 相应 的 MSpan 结 构 体 。 前 面 说 过 ，MSpan 就 是 若干 连续 的 页 。 那 么 ， 一 个 多 页 的 MSpan 会 占用 map 数 组 中 的 多 项 ， 有 多 


少 页 就 会 占用 多 少 项 。 上 比如 ， 可 能 map[502] 到 map[505] 都 指 WE ， 这 个 MSpan 的 Pageld 为 502，npages 为 4。 


回收 过 程 : ee 人 它 相 邻 的 页 的 址 址 ， 再 通过 map 映 射 得 到 该 页 对 应 的 MSpan， 如 果 MSpan 的 
state 是 未 使 用 ， 则 可 以 将 两 者 进行 合并 。 最 后 会 将 这 页 或 者 合并 后 的 页 归还 到 free[] 分 配 池 或 者 是 large 中 。 


MCache 
MCache 层 次 跟 MHeap 层 次 非常 像 ， 也 是 一 个 分 配 池 ， 对 每 个 尺寸 的 类 别 都 有 一 个 空闲 对 象 的 单 链表 。Go 的 内 存 管理 可 以 看 
成 一 个 两 级 的 层次 ， 上 面 一 级 是 MHeap 层 次 ， 而 MCache 则 是 下 面 一 级 。 


每 个 M 都 有 一 个 自己 的 局 部 内 存 缕 存 MCache， 这 样 分 配 小 对 象 的 时 候 直 接 从 MCache 中 分 配 ， 就 不 用 加 锁 了 ， 这 是 Go 能 够 
在 多 线程 环境 中 高 效 地 进行 内 存 分 配 的 重要 原因 。MCache 是 用 于 小 对 象 的 分 配 。 





分 配 一 个 小 对 象 (<32kB) 的 过 程 


1. 将 小 对 象 大 小 向 上 取 整 到 一 个 对 应 的 尺寸 类 别 ， 查 找 相应 的 MCache 的 空闲 链表 。 如 果 链 表 不 空 ， 直 接 从 上 面 分 配 一 个 
对 象 。 这 个 过 程 可 以 不 必 加 锁 。 

2. 如 果 MCache 自 由 链 是 空 的 ,通过 从 MCentral 自 由 链 拿 一 些 对 象 进行 补充 。 

3. 如 果 MCentral 自 由 链 是 空 的 , 则 通过 MHeap 中 拿 一 些 页 对 MCentral 进 行 补充 ， 然 后 将 这 些 内 存 截 断 成 规定 的 大 小 。 

4. 如 果 MHeap 是 空 的 ,或 者 没有 足够 大 小 的 页 了 ,从 操作 系统 分 配 一 组 新 的 页 (至 少 1MB)。 分 配 一 大 批 的 页 分 挫 了 从 操作 系统 
分 配 的 开销 。 


注意 上 面 表述 中 的 用 词 “ 一 些 *。 从 MCentral 中 拿 一 些 “ 自 由 链 对 象 补 充 MCache 分 挫 了 访问 MCentral 加 锁 的 开销 。 从 MHeap 中 
分 配 "一 些 “ 的 页 补充 MCentral 分 推 了 对 MHeap 加 锁 的 开销 。 
释放 一 个 小 对 象 也 是 类 似 的 过 程 


1. 查找 对 象 所 属 的 尺寸 类 别 ， 将 它 添加 到 MCache 的 自 ee 。 
2. 如 果 MCache 自 由 链 太 长 或 者 MCache 内 存 大 多 了 ， 则 返还 一 些 we 由 链 。 
3. 如 果 在 某 个 范围 的 所 有 的 对 象 都 归还 到 MCentral 链 了 ， 了 将 它们 归还 到 页 堆 。 


归还 到 MHeap 就 结束 了 ， 目 前 还 是 没有 归还 到 操作 系统 。 


MCache 层 次 仅 用 于 分 配 小 对 象 ， 分 配 和 释放 大 的 对 象 则 是 直接 使 用 MHeap 的 ， 跳 过 MCache 和 MCentral 自 由 链 。MCache 和 
MCentral 中 自由 链 的 小 对 象 可 能 是 也 可 能 不 是 清 0 了 的 。 对 象 的 第 2 个 字 节 作为 标记 ， 当 它 是 0 时 ， 此 对 象 是 清 0 了 的 。 页 堆 中 
的 总 是 清 零 的 ， 当 一 定 范围 的 对 象 归 还 到 页 堆 时 ， 需 要 先 清 零 。 这 样 才 符合 Go 语言 规范 : 分 配 一 个 对 象 不 进行 初始 化 ， 它 的 
默认 值 是 该 类 型 的 零 值 。 


MCentral 


MCentral 层 次 是 作为 MCache 和 MHeap 的 连接 。 对 上 ， 它 从 MHeap 中 申请 MSpan ; 对 下 ， 它 将 MSpan 划 分 成 各 种 小 尺寸 对 
象 ， 提 供给 MCache 使 用 。 


struct MCentral 


{ 
Lock; 
int32 sizeclass; 
MSpan nonempty; 
MSpan empty; 
int32 nfree; 


}; 


注意 ， 每 个 MSpan 只 会 分 割 成 同 种 大 小 的 对 象 。 每 个 MCentral 也 是 只 含 同 种 大 小 的 对 象 。MCentral 结 构 中 ， 有 一 个 
nonempty 的 MSpan 链 和 一 个 empty 的 MSpan 链 ， 分 别 表 示 还 有 空间 的 MSpan 和 装 满 了 对 象 的 MSpan。 如 图 所 示 : 


分 配 还 是 很 简单 ， 直 接 从 MCentral->nonempty->freelist 分 配 。 如 果 发 现 freelist 空 了 ， 则 说 明 这 一 块 MSpan 满 了 ， 将 它 移 到 
MCentral->empty 。 前 面 说 过 ， 回 收 比 分 配 复杂 ， 因 为 涉及 到 合并 。 这 里 的 合并 是 通过 引用 计数 实现 的 。 从 MSpan 中 每 划 出 
一 个 对 象 ， 则 引用 计数 加 一 ， 每 回收 一 个 对 象 ， 则 引用 计数 减 一 。 如 果 减 完 之 后 引用 计数 为 零 了 ， 则 说 明 这 整 块 的 MSpan 已 
经 没 被 使 用 了 ， 可 以 将 它 归还 给 MHeap。 


本 节 的 内 存 池 涉 及 的 文件 包括 : 


e malloc.h 头 文 件 

e。 malloc.goc 最 外 层 的 包装 

e@ msize.c 将 各 种 大 小 向 上 取 整 到 相应 的 尺寸 类 别 
e mheap.c 对 应 MHeap 中 相关 实现 ,还 有 MSpan 

e mcache.c 对 应 MCache 中 相关 实现 

e mcentral.c 对 应 MCentral 中 相关 实现 

e mem_linux.c SysAlloc 等 Sys 相关 的 实现 


6.2 垃圾 回收 


Go 语言 中 使 用 的 垃圾 回收 使 用 的 是 标记 清扫 算法 。 opted 不 过 ， 在 当前 1.3 版 本 中 ， 实 现 了 精确 的 
垃圾 回收 和 并 行 的 垃圾 回收 ， 大 大 地 提高 了 垃圾 回收 的 速度 ， 进 行 垃圾 回收 时 系统 并 不 会 长 时 间 卡 住 。 


标记 清扫 算法 


标记 清扫 算法 是 一 个 很 基础 的 垃圾 回收 算法 ， 该 算法 中 有 一 个 标记 初始 的 root 区 域 ， 以 及 一 个 受 控 堆 区 。root 区 域 主要 是 程序 
运行 到 当前 时 刻 的 栈 和 全 局 数据 区 域 。 在 受 控 堆 区 中 ， 很 多 数据 是 程序 以 后 不 需要 用 到 的 ， 这 类 数据 就 可 以 被 当 作 垃圾 回收 
了 。 判 断 一 个 对 象 是 否 为 垃圾 ， 就 是 看 从 root 区 域 的 对 象 是 否 有 直接 或 间接 的 引用 到 这 个 对 象 。 如 果 没 有 任何 对 象 引 用 到 

它 ， 则 说 明 它 没有 被 使 用 ， 因 此 可 以 安全 地 当 作 垃圾 回收 掉 。 


标记 清 法 分 为 两 阶段 : 标记 阶段 和 清扫 阶段 。 标 记 阶 段 ， 从 root 区 域 出 发 ， 扫 描 所 有 root 区 域 的 对 象 直接 或 间接 引用 到 的 
对 象 ， er 。 在 回收 阶段 ， 扫 描 整 个 堆 区 ， 对 所 有 无 标记 的 对 象 进行 回收 。( 补 图 ) 


位 图 标记 和 内 存 布 局 


既然 垃圾 回收 算法 要 求 给 对 象 加 上 垃圾 回收 的 标记 ， 显 然 是 需要 有 标记 位 的 。 一 般 的 做 法 会 将 对 象 结构 体 中 加 上 一 个 标记 
域 ， 一 些 优化 的 做 法 会 利用 对 象 指针 的 低位 进行 标记 ， 这 都 只 是 些 奇 技 淫 巧 黑 了 。Go 没 有 这 么 做 ， 它 的 对 象 和 C 的 结构 体 对 
象 完全 一 致 ， 使 用 的 是 非 侵入 式 的 标记 位 ， 我 们 看 看 它 是 怎么 实现 的 。 


堆 区 域 对 应 了 一 个 标记 位 图 区 域 ， 堆 中 每 个 字 ( 不 是 byte， 而 是 Word) 都 会 在 标记 位 区 域 中 有 对 应 的 标记 位 。 每 个 机 器 字 (32 位 
或 64 位 ) 会 对 应 4 位 的 标记 位 。 因 此 ，64 位 系统 中 相当 于 每 个 标记 位 图 的 字 节 对 应 16 个 堆 中 的 字 节 。 


虽然 是 一 个 堆 字 节 对 应 4 位 标记 位 ， 但 标记 位 图 区 域 的 内 存 布 局 并 不 是 按 4 位 一 组 ， 而 是 16 个 堆 字 节 为 一 组 ， 将 它们 的 标记 位 
言 息 打包 存储 的 。 每 组 64 位 的 标记 位 图 从 上 到 下 依次 包括 : 


16 位 的 特殊 位 标记 位 

16 位 的 垃圾 回收 标记 位 

16 位 的 无 指针 / 块 边界 的 标记 位 
16 位 的 已 分 配 标记 位 


这 样 设 计 使 得 对 一 个 类 型 的 相应 的 位 进行 遍历 很 容易 。 


前 面 提 到 堆 区 域 和 堆 地 址 的 标记 位 图 区 域 是 分 开 存储 的 ， 其 实 它 们 是 以 mheap.arena_start 地 址 为 边界 ， 向 上 是 实际 使 用 的 堆 
地 址 空间 ， 向 下 则 是 标记 位 图 区 域 。 以 64 位 系统 为 例 ， 计 算 堆 中 某 个 地 址 的 标记 位 的 公式 如 下 : 


偏 移 = 地 址 - mheap.arena_start 

标记 位 地 址 = mheap.arena_start - 偏 移 /16 - 1 
移 位 = 偏 移 % 16 

标记 位 = * 标 记 位 地 址 >> 移 位 


然后 就 可 以 通过 (标记 位 & 垃圾 回收 标记 位 ),( 标 记 位 & 分 配 位 ), 等 来 测试 相应 的 位 。 其 中 已 分 配 的 标记 为 1<<0, 无 指针 / 块 边界 
是 1<<16, 垃 圾 回收 的 标记 位 为 1<<32, 特 殊 位 1<<48 


具体 的 内 存 布局 如 下 图 所 示 : 
精确 的 垃圾 回收 
像 C 这 种 不 支持 垃圾 回收 的 语言 ， 其 实 还 是 有 些 垃圾 回收 的 库 可 以 使 用 的 。 这 类 库 一 般 也 是 用 的 标记 清扫 算法 实现 的 ， 但 是 
它们 都 是 保守 的 垃圾 回收 。 为 什么 叫 "保守 "的 垃圾 回收 呢 ? 之 所 以 叫 "保守 "是 因为 它们 没 办 法 获取 对 象 类 型 信息 ， 因 此 只 能 保 


守 地 假设 地 址 区 间 中 每 个 字 都 是 指针 。 


无 法 获取 对 象 的 类 型 信息 会 造成 什么 问题 呢 ? 这 里 举 两 个 例子 来 说 明 。 先 看 第 一 个 例子 ， 假 设 某 个 结构 体 中 是 不 包含 指针 成 
员 的 ， 那 么 对 该 结构 体 成 员 进行 垃圾 回收 时 ， 不 必要 递归 地 标记 结构 体 的 成 员 的 。 但 是 由 于 没有 类 型 信息 ， 我 们 并 不 
知道 这 个 结构 体 成 员 不 包含 指针 ， 因 此 我 们 只 能 对 结构 体 的 每 个 字 节 递归 地 标记 下 去 ， 这 显然 会 浪费 很 多 时 间 。 这 个 例子 说 


明 精 确 的 垃圾 回收 可 以 减少 不 必要 的 扫描 ， 提 高 标记 过 程 的 速度 


再 看 另 一 个 例子 ， 假 AL 的 变量 ， 它 的 值 是 8860225560。 但 是 我 们 不 知道 它 的 类 型 是 long， 所 以 在 进行 垃圾 回 
收 时 会 把 个 当 作 指针 处 理 ， 这 个 指针 引用 到 i 。 假 设 0x2101c5018 碰 巧 有 某 个 对 象 ， 那 么 这 个 对 象 就 无 法 
被 释放 了 ， 即 使 实际 上 已 经 没 任何 地 方 使 用 它 。 这 个 例子 说 明 ， 保 守 的 垃圾 回收 某 些 情况 下 会 出 现 垃 圾 无 法 被 回收 。 虽 然 不 
会 造成 大 的 问题 ， 但 总 是 让 人 很 不 夹 ， 都 是 没有 类 型 信息 惹 的 福 。 


ES 


现在 好 了 ，Go 在 1.1 版 本 中 开始 支持 精确 的 垃圾 回收 。 be en do 就 是 类 型 信息 ， 上 一 节 中 讲 过 MSpan 结 构 
体 ， 类 型 信息 是 存储 在 MSpan 中 的 。 从 一 个 地 址 计算 它 所 属 的 MSpan， 公式 如 下 


页 号 = (地 址 - mheap.arena_start) >> 页 大 小 
MSpan = mheap->map[ 页 号 ] 


接 下 来 通过 MSpan->type 可 以 得 到 分 配 块 的 类 型 。 这 是 一 个 MType 的 结构 体 : 


struct MTypes 


6 
byte compression; // one of MTypes_* 
bool sysalloc; // whether (void*)data is from runtime.SysAlloc 
uintptr data; 

}; 


MTypes 描 述 MSpan 里 分 配 的 块 的 类 型 ， 其 中 compression 域 描述 数据 的 布局 。 它 的 取 值 为 MTypes_Empty， 
MTypes_Single，MTypes_Words，MTypes_Bytes 四 个 中 的 一 种 。 


MTypes_Empty: 
所 有 的 块 都 是 free 的 ， 或 者 这 个 分 配 块 的 类 型 信息 不 可 用 。 这 种 情况 下 data 域 是 无 意义 的 。 


MTypes_Single: 
这 个 MSpan 只 包含 一 个 块 ，data 域 存放 类 型 信息 ，sysalloc 域 无 意义 


MTypes_Words: 
这 个 MSpan 包 含 多 个 块 ( 块 的 种 类 多 于 7)。 这 时 data 指 向 一 个 数组 [NumBlocks]uintptr,， 数 组 里 每 个 元 素 存 放 相 应 块 的 类 型 信息 


MTypes_Bytes: 
这 个 MSpan 中 包含 最 多 7 种 不 同类 型 的 块 。 这 时 data 域 指 下 面 这 个 结构 体 
struct t 
type [8]uintptr // type[9] is always 0 
index [NumBlocks]byte 


} 
第 个 块 的 类 型 是 data.type[data.index[i]] 


表面 上 看 MTypes_Bytes 好 像 最 复杂 ， 其 实 这 里 的 复杂 程度 是 MTypes_Empty 小 于 MTypes_Single 小 于 MTypes_Bytes 小 于 
MTypes_Words 的 。MTypes_Bytes 只 不 过 为 了 做 优化 而 显得 很 复杂 。 

上 一 节 中 说 过 ， 每 一 块 MSpan 中 存放 的 块 的 大 小 都 是 一 样 的 ， 不 过 它们 的 类 型 不 一 定 相 同 。 如 果 没 有 使 用 ， 那么 这 个 MSpan 
的 类 型 就 是 MTypes_Empty。 如 果 存 一 个 很 大 块 ， 大 于 这 个 MSpan 大 小 的 一 半 ， 因 此 存 不 了 其 它 东西 了 ， 那 么 这 个 MSpan 的 
类 型 是 MTypes_Single。 假 设 存 了 多 种 块 ， 每 一 块 用 一 个 指针 ， 本 来 可 以 直接 用 MTypes_Words 存 的 。 但 是 当 类 型 不 多 时 ， 
可 以 把 这 些 类 型 的 指针 集中 起 来 放 在 数组 中 ， 然 后 存储 数组 索引 。 这 是 一 个 小 的 优化 ， 可 以 节省 内 存 空间 。 


到 的 类 型 信息 最 终 是 什么 样子 的 呢 ? 其 实 是 一 个 这 样 的 结构 体 : 


struct Type 

人 
uintptr size; 
uint32 hash; 
uint8 _unused; 
uint8 align; 
uint8 fieldAlign; 
uint8 kind; 
Alg *alg; 
WOLUT OC 
String *string; 
UncommonType *x; 
Type *ptrto; 

}; 


不 同类 型 的 类 型 信息 结构 体 略 有 不 同 ， 这 个 是 通用 的 部 分 。 可 以 看 到 这 个 结构 体 中 有 一 个 gc 域 ， 精 确 的 垃圾 回收 就 是 利用 类 
型 信息 中 这 个 gc 域 实现 的 。 


从 gc 出 去 其 实 是 一 段 指 令 码 ， 是 对 这 种 类 型 的 数据 进行 垃圾 回收 的 指令 ，Go 中 用 一 个 状态 机 来 执行 垃圾 回收 指令 码 。 大 致 的 
框架 是 类 似 下 面 这 样子 : 


for(;;) { 
switch(pc[0]) 区 
case, GC PTR: 
break; 
case GC_SLICE: 
break; 
case GC_APTR: 
break; 
case GC_STRING: 
continue; 
case GC_EFACE: 
if(eface->type == nil) 
continue; 
break; 
case GC_IFACE: 
break; 
case GC_DEFAULT_PTR: 
while(stack_ top.b <= end_b) { 
obj = *(byte**)stack_ top.b; 
stack_top.b += PtrSize; 
if(obj >= arena_start && obj < arena used) { 
*ptrbufpos++ = (PtrTarget){0bj, 0}; 
if(ptrbufpos == ptrbuf_end) 
flushptrbuf (ptrbuf, &ptrbufpos, &wp, &wbuf, &nobj); 
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case GC_ARRAY_START: 
continue; 

case GC_ARRAY_NEXT: 
continue; 

case GC_CALL: 
continue; 

case GC_MAP_PTR: 
continue; 

case GC_MAP_NEXT: 
continue; 

case GC_REGION: 
continue; 

case GC_CHAN_PTR: 
continue; 

case GC_CHAN: 
continue; 

default: 
runtime.throw("scanblock: invalid GC instruction"); 
return; 


Go 语言 使 用 标记 清扫 的 垃圾 回收 算法 ， 标 记 位 图 是 非 侵入 式 的 ， 内 存 布局 设计 得 比较 巧妙 。 并 且 当 前 版 本 的 Go 实现 了 精确 
的 垃圾 回收 。 在 精确 的 垃圾 回收 中 ， 通 过 定位 对 象 的 类 型 信息 ， 得 到 该 类 型 中 的 垃圾 回收 的 指令 码 ， 通 过 一 个 状态 机 解释 这 
段 指 令 码 来 执行 特定 类 型 的 垃圾 回收 工作 。 


对 于 堆 中 任意 地 址 的 对 象 ， 找 到 它 的 类 型 信息 过 程 为 ， 先 通过 它 在 的 内 存 页 找到 它 所 属 的 MSpan， 然 后 通过 MSpan 中 的 类 型 
言 息 找到 它 的 类 型 信息 。 


不 知道 读者 有 没有 注意 一 个 细节 ，MType 中 的 data 值 应 该 是 存放 Type 结构 体 的 指针 ， 但 它 却 是 uintptr 表 示 的 。 这 是 为 什么 
呢 ? 


6.3 垃圾 回收 


目前 Go 中 垃圾 回收 的 核心 函数 是 scanblock， 源 代码 在 文件 runtime/mgc0.c 中 。 这 个 函数 非常 难 读 ， 单 个 函数 写 了 足 足 500 多 
行 。 上 面 有 两 个 大 的 循环 ， 外 层 循环 作用 是 扫描 整个 内 存 块 区 域 ， 将 类 型 信息 提取 出 来 ， 得 到 其 中 的 gc 域 。 内 层 的 大 条 环 是 
实现 一 个 状态 机 ， 解 析 执 行 类 型 信息 中 gc 域 的 指令 码 。 


化 的 小 技巧 。 由 于 内 存 分 配 是 机 器 字 节 对 齐 的 ， 所 以 地 址 就 只 用 到 了 高 位 ， 低 位 是 用 不 到 的 。 于 是 低位 可 以 利用 起 来 存储 一 
些 额 外 的 信息 。 这 里 的 uintptr 中 高 位 存放 的 是 Type 结构 体 的 指针 ， 低 位 用 来 存放 类 型 。 通 过 


t = (Type*)(type & ~(uintptr)(PtrSize-1)); 


就 可 以 从 uintptr 得 到 Type 结构 体 指 针 ， 而 通过 


type & (PtrSize-1) 


就 可 以 得 到 类 型 。 这 里 的 类 型 有 Typelnfo_SingleObject，Typelnfo_Array，Typelnfo_Map，Typelnfo_Chan 几 种 。 


基本 的 标记 过 程 
从 最 简单 的 开始 看 ， 基 本 的 标记 过 程 ， 有 一 个 不 带 任何 优化 的 标记 的 实现 ， 对 应 于 函数 debug_scanblock。 


debug_scanblock 函 数 是 递归 实现 的 ， 单 线程 的 ， 更 简单 更 慢 的 Scanblock 版 本 。 该 函数 接收 的 参数 分 别 是 一 个 指针 表示 要 扫 
描 的 地 址 ， 以 及 字 节 数 。 


首先 要 将 传 入 的 地 址 ， 按 机 器 字 节 大 小 对 齐 。 
然后 对 待 扫 描 区 域 的 每 个 地 址 : 

找到 它 所 属 的 MSpan， 将 地 址 转换 为 MSpan 里 的 对 象 地 址 。 

根据 对 象 的 地 址 ， 找 到 对 应 的 标记 位 图 里 的 标记 位 。 

判断 标记 位 ， 如 果 是 未 分 配 则 跳 过 。 否 则 加 上 特殊 位 标记 (debug_scanblock 中 用 特殊 位 代码 的 mark 位 ) 完 成 标记 。 
判断 标记 位 中 标记 了 无 指针 标记 位 ， 如 果 没 有 ， 则 要 递归 地 调用 debug_scanblock 。 


这 个 递归 版 本 的 标记 莫 法 还 是 很 容易 理解 的 。 其 中 涉及 的 细节 在 上 节 中 已 经 说 过 了 ， 比 如 任意 给 定 一 个 地 址 ， 找 到 它 的 标记 
位 信息 。 很 明显 这 里 仅仅 使 用 了 一 个 无 指针 位 ， 并 没有 精确 的 垃圾 回收 。 
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并 行 的 垃圾 回收 

Go 在 这 个 版 本 中 不 仅 实现 了 精确 的 垃圾 回收 ， 而 且 实 现 了 并 行 的 垃圾 回收 。 标 记 算法 本 质 上 就 是 一 个 树 的 遍历 过 程 ， 上 面 实 
现 的 是 一 个 递归 版 本 。 


并 行 的 垃圾 回收 需要 做 的 第 一 步 ， 就 是 先 将 算法 做 成 非 递归 的 。 非 递归 版 本 的 树 的 遍历 需要 用 到 一 个 队列 。 树 的 非 递归 遍历 
的 伪 代 码 大 致 是 : 


根 结 点 进 队 

while (队列 不 空 ) { 
出 队 
访问 


将 子 结 点 进 队 


第 二 步 是 使 上 面 的 代码 能 够 并 行 地 工作 ， 显 然 这 时 是 需要 一 个 线程 安全 的 队列 的 。 假 设 有 这 样 一 个 队列 ， 那 么 上 面 代码 就 能 
够 工作 了 。 但 是 ， 如 果 不 加 任何 优化 ， 这 里 的 队列 的 并 行 访问 非常 地 频繁 ， 对 这 个 队列 加 锁 代 价 会 非常 高 ， 即 使 是 使 用 CAS 
操作 也 会 大 大 降低 效率 。 


ee ， 第 三 步 要 做 的 就 是 优化 上 面 队列 的 数据 结构 。 事 实 上 ，Go 中 并 没有 使 用 这 样 一 个 队列 ， 为 了 优化 ， 它 通过 三 个 数据 结 
共同 来 完成 这 个 队列 的 功能 ， 这 三 个 数据 结构 分 别 是 PtrTarget 数 组 ，Workbuf ，lfstack。 


先 说 Workbuf 吧 。 听 名 字 就 知道 ， 这 个 结构 体 的 意思 是 工作 缓冲 区 ， 里 面 存 放 的 是 一 个 数组 ， 数 组 中 的 每 个 元 素 都 是 一 个 待 
处 理 的 结 点 ， 也 就 是 一 个 DObj 指 针 。 这 个 对 象 本 身 是 已 经 标记 了 的 ， 这 个 对 象 直接 或 间接 引用 到 的 对 象 ， 都 是 应 该 被 标记 的 ， 
它们 不 会 被 当 作 垃圾 回收 掉 。Workbuf 是 比较 大 的 ， 一 般 是 N 个 内 存 页 的 大 小 (目前 是 2 页 ， 也 就 是 8K) 。 


PtrTarget 数 组 也 是 一 个 缓冲 区 ， 0 当 于 一 个 intermediate buffer， 跟 Workbuf 有 一 点 点 的 区 别 一 ， 它 比 Workbuf 小 很 多 ， 
大 概 只 有 32 或 64 个 元 素 的 数组 。 第 二 ，Workbuf 中 的 对 象 全 部 是 已 经 标记 过 的 ， ee 氏 是 标记 的 ， 也 可 能 
是 没 标 记 的 。 第 三 ， win ， 指 针 是 指向 任意 地 址 的 ， 而 对 象 是 对 齐 到 正确 地 址 的 。 从 一 个 
指针 变 为 一 个 对 象 要 经 过 一 次 变换 ， 上 一 节 中 有 讲 过 具体 细节 。 


垃圾 回收 过 程 中 ， 会 有 一 个 从 PtrTarget 数 组 冲刷 到 Workbuf 缓 冲 区 的 过 程 。 对 应 于 源 代 码 中 的 flushptrbuf 函 数 ， 这 个 函数 作用 
就 是 对 PtrTaget 数 组 中 的 所 有 元 素 ， 如 果 该 地 址 是 mark 了 的 ， 则 将 它 移 到 Workbuf 中 。 标 记过 程 形成 了 一 个 环 ， 在 环 的 一 
边 ， 对 Workbuf 中 的 对 象 ， 会 将 它们 可 能 引用 的 区 域 全 部 放 到 PtrTarget 中 记录 下 来 。 一 边 ， 又 会 将 PtrTarget 中 确定 
需要 标记 的 地 址 刷 到 Workbuf 中 。 这 个 过 程 一 轮 一 轮 地 进行 ， 推 动 非 递归 版 本 的 树 的 遍历 过 程 ， 也 就 是 前 面 伪 代 码 中 的 出 

队 ， 访 问 ， 子 结 点 进 队 的 过 程 。 


另 一 个 数据 结构 是 lfstack， 这 个 名 字 的 意思 是 lock free 栈 。 其 实 它 是 被 用 作 了 一 个 无 锁 的 链表 ， 链 表 结 点 是 以 Workbuf 为 单位 
的 。 并 行 垃圾 回收 中 ， 多 条 线程 会 从 这 个 链表 中 取 数 据 ， 每 次 以 一 个 Workbuf 为 工作 单位 。 同 时 ， 标 记 的 过 程 中 也 会 产生 
Workbuf 结 点 放 到 链 中 。lfstack 保 证 了 对 这 个 链 的 并 发 访问 的 安全 性 。 由 于 现在 链表 结 点 是 以 Workbuf 为 单位 的 ， 所 以 保证 整 
体 的 性 能 ，lfstack 的 底层 代码 是 用 CAS 操 作 实 现 的 。 


经 过 第 三 步 中 数据 结构 上 的 拆 解 ， 整 个 并 行 垃圾 回收 的 架构 已 经 呼之欲出 了 ， 这 就 是 标记 扫描 的 核心 函数 scanblock。 这 个 函 
数 是 在 多 线程 下 并 行 安全 的 


那么 ， 最 后 一 步 ， 多 线程 并 行 。 整 个 的 gc 是 以 runtime.gc 函 数 为 入 口 的 ， 它 实际 调用 的 是 gc。 进 入 gc 函数 后 会 先 
stoptheworld， 接 着 添加 标记 的 root 区 域 。 然 后 会 设置 markroot 和 sweepspan 的 并 行 任务 。 运 行 mark 的 任务 ， 扫 描 块 ， 运 行 
sweep 的 任务 ， 最 后 starttheworld 并 切换 出 去 。 


有 一 个 ParFor 的 数据 结构 。 在 gc 函数 中 调用 了 


runtime.parforsetup(work.markfor, work.nproc, work.nroot, nil, false, markroot); 
runtime.parforsetup(work.sweepfor, work.nproc, runtime.mheap->nspan, nil, true, sweepspan); 


是 设置 好 回调 函数 让 线程 去 执 ‘marhrool sweepspan 函数 。 垃 圾 回收 时 会 stoptheworld， 其 它 goroutine 会 对 发 起 
stoptheworld 做 出 响应 ， 调 用 runtime.gchelper， 这 个 函数 会 调用 scanblock 帮 助 标记 过 程 。 也 会 并 行 地 做 markroot 和 
sweepspan 的 过 程 。 


void 
runtime.gchelper (void) 
{ 

gchelperstart(); 


// parallel mark for over gc roots 
runtime.parfordo(work.markfor); 


// help other threads scan secondary blocks 
scanblock(nil, nil, 090, true); 


if(DebugMark) { 
// wait while the main thread executes mark(debug_scanblock) 
while(runtime.atomicload(&work.debugmarkdone) == 0) 
runtime.usleep(10); 


} 


runtime.parfordo(work.sweepfor); 

bufferList[m->helpgc].busy = 0; 

if(runtime.xadd(&work.ndone, +1) == work.nproc-1) 
runtime.notewakeup(&work.alldone); 


其 中 并 行 时 也 有 实现 工作 流 窃取 的 概念 ， 多 个 worker 同 时 去 工作 缓存 中 取 数 据 出 来 处 理 ， 如 果 自己 的 任务 做 完了 ， 就 会 从 其 
它 的 任务 中 “ 偷 ” 一 些 过 来 执行 。 


垃圾 回收 的 时 机 


垃圾 回收 的 触发 是 由 一 个 gcpercent 的 变量 控制 的 ， 当 新 分 配 的 内 存 占 已 在 使 用 中 的 内 存 的 比例 超过 gcprecent 时 就 会 触发 。 
比如 ，gcpercent=100， 当 前 使 用 了 4M 的 内 存 ， 那 么 当 内 存 分 配 到 达 8M 时 就 会 再 次 gc。 如 果 回 收 完 毕 后 ， 内 存 的 使 用 量 为 
5M， 那 么 下 次 回收 的 时 机 则 是 内 存 分 配 达到 10M 的 时 候 。 也 就 是 说 ， 并 不 是 内 存 分 配 越 多 ， 垃 圾 回收 频率 越 高 ， 这 个 算法 使 
得 垃圾 回收 的 频率 比较 稳定 ， 适 合 应 用 的 场景 


gcpercent 的 值 是 通过 环境 变量 GOGC 获 取 的 ， 如 果 不 设置 这 个 环境 变量 ， 默 认 值 是 100。 如 果 将 它 设置 成 off， 则 是 关闭 垃圾 
回收 。 


高 级 数据 结构 的 实现 
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7.1 channel 


channel 数 据 结 构 


Go 语言 channel 是 first-class 的 ， 意 味 着 它 可 以 被 存储 到 变量 中 ， 可 以 作为 参数 传递 给 函数 ， 也 可 以 作为 函数 的 返回 值 返 回 。 
作为 Go 语言 的 核心 特征 之 一 ， 虽 然 cshannel 看 上 去 很 高 端 ， 但 是 其 实 channel 仅 仅 就 是 一 个 数据 结构 而 已 ， 结 构 体 定义 如 下 : 


Struct Hchan 
uintgo qcount; // 队列 q 中 的 总 数据 数量 
uintgo dataqsiz; // 环形 队列 q 的 数据 大 小 
uint16 elemsize; 
bool closed; 
uint8 elemalign; 
Alg* elemalg; // interface for element type 
uintgo sendx; // 发 送 index 
uintgo recvx; // 接收 index 
waitQ recvq; // 因 recVv 而 阻塞 的 等 待 队列 
waitQ sendq; // 因 send 而 阻塞 的 等 待 队列 
Lock; 

}; 


让 我 们 来 看 一 个 Hchan 这 个 结构 体 。 其 中 一 个 核心 的 部 分 是 存放 channel 数 据 的 环形 队列 ， 由 qcount 和 elemsize 分 别 指定 了 队 
列 的 容量 和 当前 使 用 量 。dataqsize 是 队列 的 大 小 。elemalg 是 元 素 操作 的 一 个 Alg 结 构 体 ， 记 录 下 元 素 的 操作 ， 如 copy 函 数 ， 
equal 函 数 ，hash 函 数 等 。 


可 能 会 有 人 疑惑 ， 结 构 体 中 只 看 到 了 队列 大 小 相关 的 域 ， 并 没有 看 到 存放 数据 的 域 啊 ? 如 果 是 带 缓冲 区 的 chan， 则 缓冲 区 数 
据 实际 上 是 紧 接 着 Hchan 结 构 体 中 分 配 的 。 


c= (Hchan*)runtime.mal(n + hint*elem->size); 


另 一 个 重要 部 分 就 是 recvqg 和 sendq 两 个 链表 ， 一 个 是 因 读 这 个 通道 而 导致 阻塞 的 goroutine， 另 一 个 是 因为 写 这 个 通道 而 阻塞 
的 goroutine。 如 果 一 个 goroutine 阻 塞 于 channel 了 ， 那 么 它 就 被 挂 在 recvq 或 sendq 中 。WaitQ 是 链表 的 定义 ， 包 含 一 个 头 结 
点 和 一 个 尾 结 点 : 


struct WaitQ 


4 
SudoG* Tinst> 
SudoG* last; 


}; 


队列 中 的 每 个 成 员 是 一 个 SudoG 结 构 体 变量 。 


Struct SudoG 


G* g; // g and selgen constitute 
uint32 selgen; // a weak pointer to g 
SudoG* link; 
int64 releasetime; 
byte* elem; // data element 

}; 


该 结构 中 主要 的 就 是 一 个 g 和 一 个 elem。elem 用 于 存储 goroutine 的 数据 。 读 通道 时 ， 数 据 会 从 Hchan 的 队列 中 拷贝 到 SudoG 
的 elem 域 。 写 通道 时 ， 数 据 则 是 由 SudoG 的 elem 域 拷贝 到 Hchan 的 队列 中 。 


Hchan 结 构 如 下 图 所 示 : 


二 /万 > 


支 写 channel 操 作 


先 看 写 channel 的 操作 ， 基 本 的 写 channel 操 作 ， 在 底层 运行 时 库 中 对 应 的 是 一 个 runtime.chansend 有 函数 。 


在 运行 时 库 中 会 执行 
void runtime.chansend(ChanType *t，Hchan *c, byte *ep, bool *pres, void *pc) 


其 中 c 就 是 channel，ep 是 取 变 量 V 的 地 址 。 这 里 的 传 值 约定 是 调用 者 负责 分 配 好 ep 的 空间 ， 仅 需要 简单 的 取 变 量 地 址 就 够 
了 。pres 参 数 是 在 select 中 的 通道 操作 使 用 的 。 


这 个 函数 首先 会 区 分 是 同步 还 是 异步 。 同 步 是 指 chan 是 不 带 缓冲 区 的 ， 因 此 可 能 写 阻塞 ， 而 异步 是 指 chan 带 缓冲 区 ， 只 有 缓 
冲 区 满 才 阻塞 。 


在 同步 的 情况 下 ， 由 于 channel 本 身 是 不 带 数据 缓存 的 ， 这 时 首先 会 查看 Hchan 结 构 体 中 的 recvq 链 表 时 否 为 室 ， 即 是 否 有 因 
为 读 该 管道 而 阻塞 的 goroutine。 如 果 有 则 可 以 正常 写 channel， 和 否则 操作 会 阻塞 。 


recvq 不 为 空 的 情况 下 ， 将 一 个 SudoG 结 构 体 出 队列 ， 将 传 给 通道 的 数据 (函数 参数 ep) 拷 贝 到 SudoG 结 构 体 中 的 elem 域 ， 并 
将 SudoG 中 的 g 放 到 就 绪 队 列 中 ， 状 态 置 为 ready， 然 后 函数 返回 。 


如 果 recvq 为 空 ， 否 则 要 将 当前 goroutine 阻 塞 。 此 时 将 一 个 SudoG 结 构 体 ， 挂 到 通道 的 sendq 链 表 中 ， 这 个 SudoG 中 的 elem 
域 是 参数 eq，SudoG 中 的 g 是 当前 的 goroutine。 当 前 goroutine 会 被 设置 为 waiting 状 态 并 挂 到 等 待 队 列 中 。 


在 异步 的 情况 ， 如 果 缓 冲 区 满 了 ， 也 是 要 将 当前 goroutine 和 数据 一 起 作为 SudoG 结 构 体 挂 在 sendq 队 列 中 ， 表 示 因 写 channel 
而 阻塞 。 否 则 也 是 先 看 有 没有 recvq 链 表 是 否 为 空 ， 有 就 唤醒 。 


跟 同 步 不 同 的 是 在 channel 绥 冲 区 不 满 的 情况 ， 这 里 不 会 阻塞 写 者 ， 而 是 将 数据 放 到 channel 的 缓冲 区 中 ， 调 用 者 返回 
读 channel 的 操作 也 是 类 似 的 ， 对 应 的 函数 是 runtime.chansend。 一 个 是 收 一 个 是 发 ， 基 本 的 过 程 都 是 差不多 的 。 
需要 注意 的 是 几 种 特殊 情况 下 的 通道 操作 -- 空 通道 和 关闭 的 通 


空 通道 是 指 将 一 个 channel 赋 值 为 nil， 或 者 定义 后 不 调用 make 进 行 初 始 化 。 按 照 Go 语 言 的 语言 规范 ， 读 写 空 通道 是 永远 阻塞 
的 。 其 实在 函数 runtime.chansend 和 runtime.chanrecv 开 头 就 有 判断 这 类 情况 ， 如 果 发 现 参数 c 是 空 的 ， 则 直接 将 当前 的 
goroutine 放 到 等 待 队 列 ， 状 态 设置 为 waiting。 


读 一 个 关闭 的 通道 ， 永 远 不 会 阻塞 ， 会 返回 一 个 通道 数据 类 型 的 零 值 。 这 个 实现 也 很 简单 ， 将 零 值 复制 到 调用 函数 的 参数 ep 
中 。 写 一 个 关闭 的 通道 ， 则 会 panic。 关 闭 一 个 空 通道 ， 的 。 
select 的 实现 


select-case 中 的 chan 操 作 编 译 成 了 ifelse。 比 如 : 


select { 
case Vv = <-c: 
on 
default: 
Oa 
有 
会 被 编译 为 : 


if selectnbrecv(&v, c) { 
OO 
} else { 
. .bar 


} 


类 似 地 


select { 
case v, ok = <-c: 
Pe 
default: 
. bar 


会 被 编译 为 : 


if c != nil && selectnbrecv2(&v, &ok, c) { 


人 
} else { 
. bar 


ye 


接 下 来 就 是 看 一 下 selectnbrecv 相 关 的 函数 了 。 其 实 没 有 任何 特殊 的 魔法 ， 这 些 函 数 只 


只 不 过 设置 了 一 个 参数 ， 告 诉 当 runtime.chanrecv 函 数 ， 当 不 能 完成 操作 时 不 要 阻 
select 操 作 其 实 都 仅仅 是 被 换 成 了 if-else 判 断 ， 底 层 调 用 的 不 阻塞 的 通道 操作 函数 。 


塞 


和 


而 


简单 地 调用 runtime.chanrecv 函 数 ， 
是 返回 失败 。 也 就 是 说 ， 所 有 的 


在 Go 的 语言 规范 中 ，select 中 的 case 的 执行 顺序 是 随机 的 ， 而 不 像 switch 中 的 case 那 样 一 条 一 条 的 顺序 执行 。 那 么 ， 如 何 实 


现 随机 呢 ? 


select 和 case 关 键 字 使 用 了 下 面 的 结构 体 : 


struct Scase 
{ 
SudoG sg; 
Hchan* chan; 
byte* pos 
uint16 kind; 
uint16 so; 
bool* receivedp; 
}; 
StrucsE Select 
{ 
uint16 tcase; 
uint16 ncase; 
Uint16* pollorder; 
Hchan** lockorder; 
Scase scase[1]; 
}; 


// must be first member (cast to Scase) 
// chan 
// return pc 


// vararg of selected bool 
// pointer to received bool (recv2) 


// 总 的 Scase[] 数 量 
// 当前 填充 了 的 scase[] 数 量 
// case 的 po11 次 序 
// channe1 的 锁 住 的 次 序 
// 每 个 case 会 在 结构 体 里 有 一 个 Scase， 顺 序 是 按 出 现 的 次 序 


每 个 select 都 对 应 一 个 Select 结 构 体 。 在 Select 数 据 结 构 中 有 个 Scase 数 组 ， 记 录 下 了 每 一 个 case， 而 Scase 中 包含 了 
Hchan。 然 后 pollorder 数 组 将 元 素 随机 排列 ， 这 样 就 可 以 将 Scase 乱 序 了 。 


7.2 interface 


interface 是 Go 语言 中 最 成 功 的 设计 之 一 ， 空 的 interface 可 以 被 当 作 “鸭子” 类 型 使 用 ， 它 使 得 Go 这 样 的 静态 语言 拥有 了 一 定 的 
动态 性 ， 但 却 又 不 损失 静态 语言 在 类 型 安全 方面 拥有 的 编译 时 检查 的 优势 。 


依赖 于 接口 而 不 是 实现 ， 优 先 使 用 组 合 而 不 是 继承 ， 这 是 程序 抽象 的 基本 原则 。 但 是 长 久 以 来 以 C++ 为 代表 的 “面向 对 象 "语言 
曲解 了 这 些 原 则 ， 让 人 们 走 入 了 误区 。 为 什么 要 将 方法 和 数据 绑 死 ?为 什么 要 有 多 重 继承 这 么 变态 的 设计 ? 面向 对 象 中 最 强 
调 的 应 该 是 对 象 间 的 消息 传递 ， 却 为 什么 被 演绎 成 了 封装 继承 和 多 态 。 面 向 对 象 是 否 实现 程序 程序 抽象 的 合理 途径 ， 又 或 者 
是 因为 它 存在 我 们 就 认为 它 合理 了 。 历 史 原 因 ， 中 间 出 现 了 太 多 的 错误 。 不 管 怎么 样 ，Go 的 interface 给 我 们 打开 了 一 扇 新 的 


ie 


窗 。 
那么 ，Go 中 的 interface 在 底层 是 如 何 实现 的 呢 ? 


Eface 和 lface 


interface 实 际 上 就 是 一 个 结构 体 ， 包 含 两 个 成 员 。 其 中 一 个 成 员 是 指向 具体 数据 的 指针 ， 另 一 个 成 员 中 包 
接口 和 带 方法 的 接口 略 有 不 同 ， 下 面 分 别 是 空 接口 和 带 方法 的 接口 是 使 用 的 数据 结构 : 


> 
CK 
尝 
完 
[ou 
出 


struct Eface 


外 
Type type; 
Void* data; 
}; 
struct Iface 
{ 
Itab* tab; 
void* data; 
}; 


先 看 Eface， 它 是 interface{} 底 层 使 用 的 数据 结构 。 数 据 域 中 包含 了 一 个 void* 指 针 ， 和 一 个 类 型 结构 体 的 指针 。interface{} 扮 
演 的 角色 跟 C 语 言 中 的 void* 是 差不多 的 ，Go 中 的 任何 对 象 都 可 以 表示 为 interface{}。 不 同 之 处 在 于 ，interface{} 中 有 类 型 信 
息 ， 于 是 可 以 实现 反射 。 


类 型 信息 的 结构 体 定义 如 下 : 


struct Type 

起 
uintptr size; 
uint32 hash; 
uint8 _unused; 
uint8 align; 
uint8 fieldAlign; 
uint8 kind; 
Alg *alg; 
vold oc 
String *string; 
UncommonType *x; 
Type *ptrto; 

}; 


其 实在 前 面 我 们 已 经 见 过 它 了 。 精 确 的 垃圾 回收 中 ， 就 是 依赖 Type 结 构 体 中 的 gc 域 的 。 不 同类 型 数据 的 类 型 信息 结构 体 并 不 
完全 一 致 ，Type 是 类 型 信息 结构 体 中 公共 的 部 分 ， 其 中 size 描 述 类 型 的 大 小 ，hash 数 据 的 hash 值 ，align 是 对 齐 ，fieldAlgin 是 
这 个 数据 上 诬 入 结构 体 时 的 对 齐 ，kind 是 一 个 枚 举 值 ， 每 种 类 型 对 应 了 一 个 编号 。alg 是 一 个 函数 指针 的 数组 ， 存 储 了 
hash/equal/print/copy 四 个 函数 操作 。UncommonType 是 指向 一 个 函数 指针 的 数组 ， 收 集 了 这 个 类 型 的 实现 的 所 有 方法 。 


在 reflect 包 中 有 个 KindOf 函 数 ， 返 回 一 个 interfacef{f} 的 Type， 其 实 该 函数 就 是 简单 的 取 Eface 中 的 Type 域 。 


lface 和 Eface 略 有 不 同 ， 它 是 带 方法 的 interface 底 层 使 用 的 数据 结构 。data 域 同样 是 指向 原始 数据 的 ， 而 ltab 的 结构 如 下 : 


Struct Itab 


InterfaceType* inter; 

Type” type 

Itab* link; 

Lnt32 bad; 

nt32 unused; 

void (*fun[])(void); 
}; 


ltab 中 不 仅 存 储 了 Type 人 信息， 而 且 还 多 了 一 个 方法 表 fun[]。 一 个 lface 中 的 具体 类 型 中 实现 的 方法 会 被 拷贝 到 |tab 的 fun 数 组 
中 。 


具体 类 型 向 接口 类 型 赋值 


将 具体 类 型 数据 赋值 给 interface{f} 这 样 的 抽象 类 型 ， 中 间 会 涉及 到 类 型 转换 操作 。 从 接口 类 型 转换 为 具体 类 型 (也 就 是 反射 )， 
也 涉及 到 了 类 型 转换 。 这 个 转换 过 程 中 做 了 哪些 操作 呢 ? 先 看 将 具体 类 型 转换 为 接口 类 型 。 如 果 是 转换 成 空 接 口 ， 这 个 过 程 
比较 简单 ， 就 是 返回 一 个 Eface， 将 Eface 中 的 data 指 针 指 向 原型 数据 ，type 指 针 会 指向 数据 的 Type 结构 体 。 


将 某 个 类 型 数据 转换 为 带 方法 的 接口 时 ， 会 复杂 一 些 。 中 间 涉 及 了 一 道 检测 ， 该 类 型 必须 要 实现 了 接口 中 声明 的 所 有 方法 才 
可 以 进行 转换 。 这 个 检测 是 在 编译 过 程 中 做 的 ， 我 们 可 以 做 个 测试 : 


type I interface { 
String() 


var a int = 5 
var bI=a 


编译 会 报错 : 


cannot use a (type int) as type I in assignment : 
int does not implement I (missing String method ) 


说 明 具 体 类 型 转换 为 带 方法 的 接口 类 型 是 在 编译 过 程 中 进行 检测 的 。 


那么 这 个 检测 是 如 何 实现 的 呢 ? 在 runtime 下 找到 了 iface.c 文 件 ， 应 该 是 早期 版 本 是 在 运行 时 检测 留 下 的 ， 其 中 有 一 个 itab 志 
数 就 是 判断 某 个 类 型 是 否 实现 了 某 个 接口 ， 如 果 是 则 返回 一 个 ltab 结 构 体 。 


类 型 转换 时 的 检测 就 是 比较 具体 类 型 的 方法 表 和 接口 类 型 的 方法 表 ， 看 具体 类 型 是 实现 了 接口 类 型 所 声明 的 所 有 的 方法 。 还 
记得 Type 结构 体 中 是 有 个 UncommonType 字 段 的 ， 里 面 有 张 方法 表 ， 类 型 所 实现 的 方法 都 在 里 面 。 而 在 ltab 中 有 个 
InterfaceType 字 段 ， 这 个 字段 中 也 有 一 张 方法 表 ， 就 是 这 个 接口 所 要 求 的 方法 。 这 两 处 方法 表 都 是 排序 过 的 ， 只 需要 一 遍 顺 
序 扫描 进行 比较 ， 应 该 可 以 知道 Type 中 和 否 实现 了 接口 中 声明 的 所 有 方法 。 最 后 还 会 将 Type 方法 表 中 的 函数 指针 ， 拷 贝 到 ltab 
的 fun 字 段 中 。 





这 里 提 到 了 三 个 方法 表 ， 有 点 容易 把 人 摘 蛙 ， 所 以 要 解释 一 下 。 


Type 的 UncommonType 中 有 一 个 方法 表 ， 某 个 具体 类 型 实现 的 所 有 方法 都 会 被 收集 到 这 张 表 中 。reflect 包 中 的 Method 和 
MethodByName 方 法 都 是 通过 查询 这 张 表 实 现 的 。 表 中 的 每 一 项 是 一 个 Method， 其 数据 结构 如 下 : 


struct Method 

{ 
String *name; 
String *pkgPath; 
Type *mtyp; 
Type *typ; 
void (*ifn)(void); 
void (*tfn)(void); 


lface 的 ltab 的 InterfaceType 中 也 有 一 张 方法 表 ， 这 张 方法 表 中 是 接口 所 声明 的 方法 。 其 中 每 一 项 是 一 个 IMethod， 数 据 结 构 如 
人 


struct IMethod 
String *name; 
String *pkgPath; 
Type *type; 

}; 


跟 上 面 的 Method 结 构 体 对 比 可 以 发 现 ， 这 里 是 只 有 声明 没有 实现 的 。 


lface 中 的 ltab 的 func 域 也 是 一 张 方法 表 ， 这 张 表 中 的 每 一 项 就 是 一 个 函数 指针 ， 也 就 是 只 有 实现 没有 声明 。 


类 型 转换 时 的 检测 就 是 看 Type 中 的 方法 表 是 否 包含 了 InterfaceType 的 方法 表 中 的 所 有 方法 ， 并 把 Type 方 法 表 中 的 实现 部 分 找 
到 ltab 的 func 那 张 表 中 。 


reflect 


reflect 就 是 给 定 一 个 接口 类 型 的 数据 ， 得 到 它 的 具体 类 型 的 类 型 信息 ， 它 的 Value 等 。reflect 包 中 的 TypeOf 和 ValueOf 函 数 分 
别 做 这 个 事情 。 


还 有 像 


v, ok := i.(T) 


这 样 的 语法 ， 也 是 判断 一 个 接口 的 具体 类 型 是 否 为 类 型 T， 如 果 是 则 将 其 值 返 回 给 vy。 这 跟 上 面 的 类 型 转换 一 样 ， 也 会 检测 转 
换 是 否 合法 。 不 过 这 里 的 检测 是 在 ~ 。 在 runtime 下 的 iface.c 文 件 中 ， 有 一 系统 的 assetX2X 函 数 ， 比 如 


runtime.assetE2T，runtime.assetl2T 等 等 。 这 个 实现 起 来 比较 简单 ， 只 需要 比较 lface 中 的 ltab 的 type 是 否 与 给 定 Type 为 同一 


攻 


7.3 方法 调用 


普通 的 函数 调用 


普通 的 函数 调用 跟 C 语 言 中 的 调用 方式 基本 上 是 一 样 的 ， 除 了 多 值 返回 的 一 些 细微 区 别 ， 见 前 面 章 


对 象 的 方法 调用 


根据 Go 语言 文档 ， 对 象 的 方法 调用 相当 于 普通 函数 调用 的 一 个 语法 糖衣 。 


type T struct { 
a. int 


} 


fune CE TY Ma inty nt { return 9 } 
func (tp “Ty Mp(f float32)Y float32 { "return 二 


Var tT 


表达 式 


得 到 一 个 函数 ， 这 个 函数 等 价 于 Mv 但 是 带 一 个 显示 的 接收 者 作为 第 一 个 参数 ， 也 就 是 


func(tv T, a int) int 


下 面 这 些 调用 是 等 价 的 : 


t.Mv(7) 

T.Mv(t, 7) 

(T).Mv(t, 7) 

人 ET 
f23=(TJNV Tf2(t, 7) 


可 以 看 了 一 下 方法 调用 用 生成 的 汇编 代码 : 


type T int 
Rune A TI To 
fmt.Println("hello world!\n") 


} 

func main() { 
var wv T 
VE 
return 


将 它 进 行 汇 编 : 


go tool 6g -S test.go 


得 到 的 汇编 代码 是 : 


// value receiver 


// pointer receiver 


让 
T 


o 


0044 (sum.go:15) TEXT main+0(SB), $8-0 
9045 (sum.go:15) FUNCDATA $0,gcargs:1+0(SB) 
9046 (sum.go:15) FUNCDATA $1,gclocals.1+0(SB) 
0047 (sum.go:16) MOVQ $0, AX 

0048 (sum.go:17) MOVQ AX, (SP) 

0049 (sum.go:17) CALL ,T.f+0(SB) 

0050 (Sum.go:18) RET 2 


从 这 段 汇编 代码 中 可 以 看 出 ， 方 法 调用 跟 普 通 函 数 调 用 完全 没有 区 别 ， 这 里 就 是 把 V 作 为 第 一 个 参数 调用 函数 Tf()。 


组 合 对 象 的 方法 调用 
在 Go 中 没有 继承 ， 但 是 有 结构 体 髋 入 的 概念 。 将 一 个 带 方法 的 类 型 匿名 嵌入 到 另 一 个 结构 体 中 ， 则 这 个 结构 体 也 会 拥有 嵌入 
的 类 型 的 方法 。 


这 个 功能 是 如 何 实现 的 呢 ?其 实 很 简单 。 当 一 个 类 型 被 匿名 嵌入 结构 体 时 ， 它 的 方法 表 会 被 拷贝 到 谨 入 结构 体 的 Type 的 方法 
表 中 。 这 个 过 程 也 是 在 编译 时 就 可 以 完成 的 。 对 组 合 对 象 的 方法 调用 同样 也 仅仅 是 普通 函数 调用 的 语法 糖衣 。 


接口 的 方法 调用 


接口 的 方法 调用 跟 上 述 情况 略 有 不 同 ， 不 同 之 处 在 于 它 是 根据 接口 中 的 方法 表 得 到 对 应 的 函数 指针 ， 然 后 调用 的 ， 而 前 面 是 
直接 调用 的 函数 地 址 。 

对 彰 的 方法 调用 ， 等 价 于 普通 函数 调用 ， 函 数 地 址 是 在 编译 时 就 可 以 确定 的 。 而 接口 的 方法 调用 ， 遂 数 地 址 要 在 运行 时 才能 
确定 。 将 具体 值 赋值 给 接口 时 ， 会 将 Type 中 的 方法 表 复 制 到 接口 的 方法 表 中 ， 然 后 接口 方法 的 函数 地 址 才 会 确定 下 来 。 因 
此 ， 接 口 的 方法 调用 的 代价 比 普 通 函数 调用 和 对 象 的 方法 调用 略 高 ， 多 了 几 条 指令 。 


8 网 络 
这 一 章 我 们 将 看 一 下 Go 的 网 络 模块 。Go 在 网 络 编程 方面 提倡 的 做 法 是 ， 每 来 一 个 连接 就 开 一 个 goroutine 去 处 理 。 非 常 的 用 
户 友好 ， 不 用 学 习 一 些 反 人 类 的 网 络 编程 模式 ， 并 且 性 能 是 有 保障 的 。 这 些 都 得 益 于 Go 的 网 络 模块 的 实现 。 


由 于 goroutine 的 实现 非常 轻 量 ， 很 容易 就 可 以 开 很 多 的 goroutine， 这 为 每 条 连接 分 配 一 个 goroutine 打 好 了 基础 。Go 对 网 络 
的 处 理 ， 在 用 户 层 是 阻塞 的 ， 实 现 层 是 非 阻塞 的 。 这 一 章 里 我 们 将 研究 Go 是 如 何 封装 好 epollkqueue， 为 用 户 提 供 友 好 的 阻 
塞 式 接口 的 。 


另 一 方面 ， 我 们 也 会 看 一 下 Go 是 的 网 络 层 的 一 些 apj 是 如 何 优雅 进行 封装 的 。 


8.1 非 阻 鹤 io 


Go 提供 的 网 络 接口 ， 在 用 户 层 是 阻塞 的 ， 这 样 最 符合 人 们 的 编程 习惯 。 在 runtime 层 面 ， 是 用 epoll/kqueue 实 现 的 非 阻塞 io， 
隆 能 提供 了 保障 。 


如 何 实 现 


底层 非 阻塞 io 是 如 何 实现 的 呢 ? 上 机 ， 所 有 文件 描述 符 都 被 设置 成 非 阻塞 的 ， ee 操作 ， 读 或 者 写 文件 
描述 答 ， 如 果 此 刻 io 还 没准 备 好 ， 则 这 个 goroutine 会 被 放 到 系统 的 等 待 队 列 中 ， 这 个 goroutine 失 去 了 运行 权 ， 但 并 不 是 站 正 
的 整个 系统 "阻塞 "于 系统 调用 。 


后 台 还 有 一 个 poller 会 不 停 地 进行 poll， 所 有 的 文件 描述 符 都 被 添加 到 了 这 个 poller 中 的 ， 当 某 个 时 刻 一 个 文件 描述 符 准 备 好 
了 ，poller 就 会 唤醒 之 前 因 它 而 阻塞 的 goroutine， 于 是 goroutine 重 新 运行 起 来 。 





这 个 poller 是 在 后 台 一 直 运 行 的 ， 前 面 分 析 系 统 调 度 章 节 时 为 了 简化 并 没有 提起 它 。 其 实在 proc.c 文 件 中 ，runtime.main 函数 
的 第 一 行 代 码 就 是 


newm(sysmon, nil); 


ee 
过 


个 意思 就 是 新 建 一 个 M 并 让 它 运行 Sysmon 咏 数 ， 前 面 说 过 M 就 是 机 器 的 抽象 ， 它 会 直接 开 一 个 物理 线程 。sysmon 里 面 是 个 
死 循 环 ， 每 睡眠 一 小 会 儿 就 会 调用 runtime.epoll 函 数 ， 这 个 sysmon 就 是 所 谓 的 poller 。 


poller 是 一 个 比 gc 更 高 优先 级 的 东西 ， 何 以 见得 呢 ? 首先 ， 垃 圾 回收 只 是 用 runtime.newproc 建 立 出 来 的 ， 它 仅仅 是 个 
goroutine 任 务 ， 而 poller 是 直接 用 newm 建 立 出 来 的 ， 它 跟 startm 是 平 级 的 。 也 就 相当 于 gc 只 是 线程 池 里 的 任务 ， 而 poller 自 身 
直接 就 是 Worker。 然 后 ，gc 只 是 被 触发 性 地 发 生 的 ， 是 被 动 的 。 而 poller 却 是 每 隔 很 短 时 间 就 会 主动 运行 。 


封装 层 


从 最 原始 的 epoll 系 统 调 用 ， 到 提供 给 用 户 的 网 络 库 函 数 ， 可 以 分 成 三 个 封装 层次 。 这 三 个 层次 分 别 是 ， 依 赖 于 系统 的 api 封 
装 ， 平 台独 立 的 runtime 封 装 ， 提 供给 用 户 的 库 的 封装 。 


最 下 面 一 层 是 依赖 于 系统 部 分 的 封装 。 各 个 平台 下 的 实现 并 不 一 样 ， 比 如 linux 下 是 封装 的 epoll，freebsd 下 是 封装 的 
kqueue。 以 linux 为 例 ， 实 现 了 一 组 调用 epoll 相 关系 统 调用 的 封装 : 


int32 runtime.epollcreate(int32 size); 

int32 runtime'epollcreatel(int32 flags); 

int32 runtime.epollctl(int32 epfd, int32 op, int32 fd, EpollEvent *ev); 

int32 runtime.epollwait(int32 epfd, EpollEvent *ev, int32 nev, int32 timeout); 
void runtime.closeonexec(int32 fd); 


它们 都 是 直接 使 用 汇编 调用 系统 调用 实现 的 ， 比 如 : 


TEXT runtime.epollcreate1(SB),7,$0 
MOVL 8(SP)，DI 
MOVL $291, AX // syscall entry 
SYSCALL 
RET 


些 函 数 还 要 继续 被 封装 成 下 面 一 组 函数 : 


runtime.netpollinit(void); 
runtime.netpollopen(int32 fd, PollDesc *pd); 
runtime.netpollready(G **gpp, PollDesc *pd, int32 mode); 


runtime:netpollinit 是 对 poller 进 行 初始 化 。 runtime:netpollopen 是 对 fd 和 pd 进 行 关联 ， 实 现 边沿 触发 通知 。 
runtime:netpollready， 使 用 前 必须 调用 这 个 函数 来 表示 fd 是 就 绪 的 


不 管 是 哪个 平台 ， 最 终 都 会 将 依赖 于 系统 的 部 分 封装 好 ， 提 供 上 面 这 样 一 组 函数 供 runtime 使 用 。 


接 下 来 是 平台 独立 的 poller 的 封装 ， 也 就 是 runtime 层 的 封装 。 这 一 层 封装 是 最 复杂 的 ， 它 对 外 提供 的 一 组 接口 是 : 


func runtime_pollServerInit() 

func runtime_pollopen(fd int) (pd *PollDesc, errno int) 

func runtime_pollClose(pd *PollDesc) 

func runtime_pollReset(pd *PollDesc, mode int) (err int) 

func runtime_pollwait(pd *PollDesc, mode int) (err int) 

func runtime_pollSetDeadline(pd *PollDesc, d int64, mode int) 
func runtime_pollunblock(pd *PollDesc) 


这 一 组 函数 是 由 runtime 封 装 好 ， 提 供给 net 包 调用 的 。 里 面 定 义 了 一 个 PollDesc 的 结构 体 ， 将 fd 和 对 应 的 goroutine 封 装 起 
来 ， 从 而 实现 当 goroutine 读 写 侣 阻塞 时 ， 将 goroutine 交 为 Gwaiting。 等 一 下 回头 再 看 实现 的 细节 。 


最 后 一 层 封装 层次 是 提供 给 用 户 的 net 包 。 在 net 包 中 网 络 文件 描述 符 都 是 用 一 个 netFD 结 构 体 来 表示 的 ， 其 中 有 个 成 员 就 是 
pollDesc 。 


// 网 络 文件 描述 符 
type netFD struct { 
SySmu sync.Mutex 


sysref int 


// must lock both sysmu and pollDesc to write 
// can lock either to read 
closing bool 


// immutable until Close 

sysfd int 

family int 

sotype int 

isConnected bool 

sysfile *os.File 

net string 

laddr Addr 

raddr Addr 

// serialize access to Read and Write methods 


rio, wio sync.Mutex 


// wait server 
pd pollDesc 


所 有 用 户 的 net 包 的 调用 最 终 调用 到 pollDesc 的 上 面 那 一 组 函数 中 ， 这 样 就 实现 了 当 goroutine 读 或 写 阻塞 时 会 被 放 到 等 待 队 
列 。 最 终 的 效果 就 是 用 户 层 阻塞 ， 底 层 非 阻塞 。 

、 六 、 直 5 和 

文件 描述 竺 和 goroutine 


当 一 个 goroutine 进 行 io 阻塞 时 ， 会 去 被 放 到 等 待 队列 。 这 里 面 就 关键 的 就 是 建立 起 文件 描述 符 和 goroutine 之 间 的 关联 。 
pollDesc 结 构 体 就 是 完成 这 个 任务 的 。 它 的 结构 体 定义 如 下 : 


struct PollDesc 


下 
PollDesc* link; // in pollcache, protected by pollcache.Lock 
Lock; // protectes the following fields 
int32 Eds 
bool closing; 
uintptr seq; // protects from stale timers and ready notifications 
G* rg; // 因 读 这 个 fd 而 阻塞 的 6G， 等 待 READY 信 号 
Timer 和 // read deadline timer (set if rt.fv != nil) 
int64 rds // read deadline 
G* wg; // 因 写 这 个 fd 而 阻塞 的 goroutines 
Timer wt; 
int64 wd; 
}; 





这 个 结构 体 是 重用 的 ， 其 中 link 就 是 将 它 链 起 来 。PollDesc 对 象 必 须 是 类 型 稳定 的 ， 因 为 在 描述 符 关闭 /重用 之 后 和 人 
epolykqueue 就 绪 通 知 。 结 构 体 中 有 一 个 seq 序 号 ， 稳 定 的 通知 是 通过 使 用 这 个 序号 实现 的 ， 当 deadline 改 变 或 者 描述 符 重用 
时 ， 序 号 会 增加 。 


runtime_pollServerlnit 的 实现 就 是 调用 更 下 层 的 runtime:netpollinit 函 数 。 runtime_pollOpen 从 PollDesc 结 构 体 缓存 中 拿 一 
出 来 ， 设 置 好 它 的 fd。 之 所 以 叫 Dpen 而 不 是 new， 就 是 因为 PollDesc 结 构 体 是 重用 的 。 runtime _pollClose 有 函数 调用 
runtime:netpollclose 后 将 PollDesc 结 构 体 放 回 缓存 。 


这 些 都 还 没 涉 及 到 fd 与 goroutine 交 互 部 分 ， 仅 仅 是 直接 对 epoll 的 调用 。 从 下 面 这 个 函数 可 以 看 到 fd 与 goroutine 交 互 部 分 : 


func runtime_pollwait(pd *PollDesc, mode int) (err int) 


会 调用 到 netpollblock， 这 个 函数 是 这 样子 的 : 


static void 
netpollblock(PollDesc *pd, int32 mode) 
{ 

G **gpp; 


gpp = &pd->rg; 
if(mode == 'w') 
gpp = &pd->wg; 
if(*gpp == READY) { 
“gpp = nil; 
return; 
} 
if(*gpp != nil) 
runtime.throw("epoll: double wait"); 
“gpp = 9; 
runtime.park(runtime.unlock, &pd->Lock, "I0 wait"); 
runtime.lock(pd); 


后 的 runtime.park 函 数 ， 就 是 将 当前 的 goroutine( 调 用 者 ) 设 置 为 waiting 状 态 。 


上 面 这 一 部 分 是 goroutine 被 放 到 等 待 队列 的 部 分 ， 下 面 看 它 被 唤醒 的 部 分 。 在 sysmon 函 数 中 ， 人 不 用 runtime.epoll ， 
这 个 子 数 对 就 绪 的 网 络 连接 进行 poll， 返回 可 运行 的 goroutine。epoll 只 能 知道 哪个 fd 就 绪 了 ， 那 么 道 哪个 goroutine 
就 绪 了 呢 ? 原来 epoll 的 data 域 存放 的 就 是 PollDesc 结 构 体 指针 。 因 此 就 可 以 得 到 其 中 ey 了 。 


9 cgo 
下 面 是 一 个 使 用 cgo 的 例子 : 


package rand 


了 

#include <stdlib.h> 
7 

import "C" 

func Random() int { 


return int(C.random()) 


} 


func Seed(i int) { 
Cc.srandom(C.uint(i)) 


} 


rand 包 导入 了 "C"， 但 是 在 Go 的 标准 库 中 并 没有 一 个 "C" 包 。 这 是 因为 "C" 是 一 个 伪 包 ， 这 是 一 个 特殊 的 名 字 ，cgo 通 过 这 个 包 
知道 它 是 引用 C 命 名 空间 的 。Go 编 译 器 使 用 符号 "…" 来 区 分 命名 空间 ， 而 C 编 译 器 使 用 不 同 的 约定 ， 因 此 使 用 C 包 中 的 名 字 时 ， 
Go 编译 器 就 知道 应 该 使 用 C 的 命名 约定 。 
在 将 要 进入 这 一 章 之 前 ， 请 读者 先 思考 下 面 一 些 问题 : 
1. Go 使 用 的 是 分 段 栈 ， 初 始 栈 大 小 很 小 ， 当 发 现 栈 不 够 时 会 动态 增长 。 动 态 增长 是 通过 进入 函数 时 插入 检测 指令 实现 的 。 
然而 C 子 数 不 使 用 分 段 栈 技术 ， 并 且 假 设 栈 是 足够 大 的 。 那 么 Go 是 如 何 处 理 不 让 cgo 调 用 发 生 栈 溢出 的 呢 ? 


2. Go 中 的 goroutine 都 是 协作 式 的 ， 运 行 到 调用 runtime 库 时 就 有 机 会 进行 调度 。 然 而 C 函 数 是 不 会 与 Go 的 runtime 做 这 种 交 
互 的 ， 所 以 cgo0 的 函数 不 是 一 个 协作 式 的 ， 那 么 如 何 避 免 进入 C 函 数 的 这 个 goroutine“ 失 控 ”"? 


3. cgo 不 仅仅 是 从 Go 调用 C， 还 包括 从 C 中 调用 Go 函数 。 这 里 面 又 有 哪些 技术 难点 ? 举 个 简单 的 例子 ，C 中 调用 Go 函数 f， 
而 f 中 是 使 用 了 go 建立 新 的 goroutine 的 ， 但 是 在 C 中 是 不 支持 Go 的 runtime 的 。 


9.1 预备 知识 


cgo 内 部 实现 相关 的 知识 是 比较 偏 底层 的 ， 同 时 与 Go 系统 调用 约定 以 及 的 goroutine 的 调度 都 有 一 定 的 关联 ， 因 此 这 里 先 写 一 
此 预备 知识 。 


本 节 的 内 容 可 能 需要 前 面 第 三 章 和 第 五 章 的 一 些 基础 ， 同 时 也 作为 前 面 没有 提 到 的 一 些 细节 的 继续 补充 。 


m 的 g0 栈 


Go 的 运行 时 库 中 使 用 了 几 个 重要 的 结构 体 ， 其 中 M 是 机 器 的 抽象 。 ， 在 结构 体 M 的 定义 中 有 一 
个 相对 特殊 的 goroutine 叫 g0( 还 有 另 一 个 比较 特殊 的 gsignal， 与 本 节 内 容 无 关 暂 且 不 讲 ) 。 个 g0 特 殊 在 什么 地 方 呢 ? 


g0 的 特殊 之 处 在 于 它 是 带 有 调度 栈 的 goroutine， 下 文 就 将 其 称 为 “m 的 g0 栈 “。Go 在 执行 调度 相关 代码 时 ， 都 是 使 用 的 m 的 g0 
栈 。 当 一 个 g 执 行 的 是 调度 相关 的 代码 时 ， 它 并 不 是 直接 在 自己 的 栈 中 执行 ， 而 是 先 切换 到 m 的 g0 栈 然后 再 执行 代码 。 


m 的 g0 栈 是 一 个 特殊 的 栈 ，g0 的 分 配 和 普通 goroutine 的 分 配 过 程 不 同 ，g0 是 在 m 建 立时 就 生成 的 ， 并 且 给 它 分 配 的 栈 空 间 比 
较 大 ， 可 以 假定 它 的 大 小 是 足够 大 而 不 必 使 用 分 段 栈 。 而 普通 的 goroutine 是 在 runtime.newproc 时 建立 ， 并 且 初 始 栈 空 间 分 配 
得 很 小 (4K) ， 会 在 需要 时 增长 。 不 仅 如 此 ，m 的 g0 栈 同时 也 是 这 个 m 对 应 的 物理 线程 的 栈 。 


这 样 就 相当 于 拥有 了 一 个 无穷" 大 小 的 非 分 段 栈 ， 于 是 回答 了 前 面 提 的 那个 问题 : Go 使 用 的 是 分 段 栈 ， 初 始 栈 大 小 很 小 ， 当 
发 现 栈 不 够 时 会 动态 增长 。 动 态 增 长 是 通过 进入 函数 时 插入 检测 指令 实现 的 。 然 而 C 函 数 不 使 用 分 段 栈 技术 ， 并 且 假 设 栈 是 
足够 大 的 。 调 用 cgo 代 码 时 ， 使 用 的 是 m 的 g0 栈 ， 这 是 一 个 足够 大 的 不 会 发 生 分 段 的 栈 。 


函数 newm 是 新 那 一 个 结构 体 M， 其 中 调用 runtime.allocm 分 配 M 的 空间 。 它 的 g0 域 是 这 个 分 配 的 : 
mp->g0 = runtime.malg(8192); 


等 等 ! 好 像 有 哪里 不 对 ? 这 个 栈 并 不 是 丨 正 的 "无穷" 大 的 ， 它 只 有 8K 并 且 不 会 增长 ?那么 如 果 调 用 的 C 函 数 使 用 超过 8K 的 栈 
大 小 会 发 生 什么 事情 呢 ? 让 我 们 先 试 一 下 ， 我 们 建立 一 个 文件 test.go， 内 容 如 下 


package main 


本 
#include "stdio.h" 


void test(int n) { 
char dummy[1024]; 


printf("in c test func iterator %d\n", n); 
if(n <= 9) { 
return; 
J 
dummy[n] = '\a'; 
test(n-1); 
由 
#Ccgo CFLAGS: -g 
A 
OF 


func main() { 


C.test(C.int(20)) 
} 


区 数 test 被 递归 调用 多 次 之 后 ， 使 用 的 栈 空间 是 超过 8K 的 。 然 后 ?程序 运行 正常 ， 什 么 也 没 发 生 。 为 什么 呢 ? 先 卖 个 关子 ， 
到 后 面 再 解释 原因 。 


入 系统 调用 


Go 的 运行 时 库 对 系统 调用 作 了 特殊 处 理 ， 所 有 涉及 到 调用 系统 调用 之 前 ， 都 会 先 调用 runtime.entersyscall， 而 在 出 系统 调用 
函数 之 后 ， 会 调用 runtime.exitsyscall。 这 样 做 原因 跟 调度 器 相关 ， 目 的 是 始终 维持 GOMAXPROCS 的 数量 ， 当 进入 到 系统 调 
用 时 ，runtime.entersyscall 会 将 P 的 M 剥 离 并 将 它 设置 为 PSyscall 状 态 ， 告 知 系统 此 时 其 它 的 P 有 机 会 运行 ， 以 保证 始终 是 
GOMAXPROCS 个 P 在 运行 。 


runtime.entersyscall 函 数 会 立刻 返回 ， 它 仅仅 是 起 到 一 个 通知 的 作用 。 那 么 这 跟 cgo 又 有 什么 关系 呢 ? 这 个 关系 可 大 着 呢 ! 在 
执行 Cgo 函 数 调用 之 前 ， 其 实 系统 会 先 调用 runtime.entersyscall。 这 是 一 个 很 关键 的 处 理 ，Go 把 cgo 的 C 函 数 调 用 像 系统 调用 
一 样 独立 出 去 了 ， 不 让 它 影响 运行 时 库 。 这 就 回答 了 前 面 提出 的 第 二 个 问题 : Go 中 的 goroutine 都 是 协作 式 的 ， 运 行 到 调用 
runtime 库 时 就 有 机 会 进行 调度 。 然 而 C 函 数 是 不 会 与 Go 的 runtime 做 这 种 交互 的 ， 所 以 cgo 的 函数 不 是 一 个 协作 式 的 ， 那 么 如 
何 避 免 进 入 C 函 数 的 这 个 goroutine“ 失 控 "? 答案 就 在 这 里 。 将 C 函 数 像 处 理 系 统 调 用 一 样 隔 离开 来 ， 这 个 goroutine 也 就 不 必 参 
与 调度 了 。 而 其 它 部 分 的 goroutine 正 常 的 运行 不 受 影 响 。 


退出 系统 调用 跟 进 入 系统 调用 是 一 个 相反 的 过 程 ，runtime.exitsyscall 函 数 会 查看 当前 仍然 有 可 用 的 P， 则 让 它 继 续 运 行 ， 否 
则 这 个 goroutine 就 要 被 挂 起 了 。 


对 于 cgo 的 代码 也 是 同样 的 作用 ， 出 了 cgo 的 C 函 数 调用 之 后 会 调用 runtime.exitsyscall 。 


9.2 cgo 关 键 技术 


上 一 节 我 们 看 了 一 些 预备 知识 ， 解 答 了 前 面 的 一 点 疑惑 。 这 一 节 我 们 将 接着 从 宏观 上 分 析 cgo 实 现 中 使 用 到 的 一 些 关 键 技 
术 。 而 对 于 其 中 一 些 细节 部 分 将 留 到 下 一 节 具 体 分 析 。 


整个 cgo 的 实现 依赖 于 几 个 部 分 ， 依 赖 于 cgo 命 令 生 成 桩 文件 ， 依 赖 于 6c 和 6g 对 Go 这 一 端的 代码 进行 编译 ， 依 赖 gcc 对 C 那 一 
端 编 译 成 动态 链接 库 ， 同 时 ， 还 依赖 于 运行 时 库 实 现 Go 和 C 互 操作 的 一 些 支持 。 


cgo 命 令 会 生成 一 些 桩 文件 ， 这 些 桩 文件 是 给 6c 和 6g 命 令 使 用 的 ， 它 们 是 Go 和 C 调 用 之 间 的 桥 粱 。 原 始 的 C 文 件 会 使 用 gcc 编 
译 成 动态 链接 库 的 形式 使 用 。 


cgo 命 令 
gc 编译 器 在 编译 源 文件 时 ， 如 果 识 别 出 go 源 文件 中 的 


mport AJC” 


字段 ， 就 会 先 调用 cgo 命 令 。cgo 提 取出 相应 的 C 函 数 接口 部 分 ， 生 成 柱 文件。 比如 我 们 写 一 个 go 文件 testgo， 内 容 如 下 : 


package main 


/ 


tinclude "stdio.h" 


void test(int n) { 


char dummy[10240]; 


printfteinac test Tunc iterator Kon ny 
if(n <= 9) { 
return,; 
3 
dummy[n] = '\a'; 
test(n-1); 


#CyO CFLAGS: -g 
Ss 
import "C" 


func main() { 
C.test(C.int(2)) 
} 


对 它 执行 Cgo 命 令 : 


go tool cgo test.go 


在 当前 目录 下 会 生成 一 个 _obj 的 文件 夹 ， 文 件 夹 里 会 包含 下 列 文件 : 


| 一 _cgo_.o 

| 一 -cgo_defun.c 
| 一 ~cgo_export.c 
| 一 _cgo_export.h 
| 一 -cgo_flags 

| 一 -cgo_gotypes.go 
| 一 -cgo_main.c 

| 一 test.cgo1.go 
[一 test.cgo2.c 


桩 文件 


cgo 生 成 了 很 多 文件 ， 其 中 大 多 数 作 用 都 是 包装 现 有 的 函数 ， 或 者 进行 声明 。 比 如 在 test.cgo2.c 中 ， 它 生成 了 一 个 函数 来 包装 
test 函 数 : 


void 
_cgo_1ib9ecf7f7656_Cfunc_test(void *V) 
{ 
struct { 
nt DO 
char __pad4[4]; 
} _attribute _((_ packed )) *a = v; 
test(a->p0); 


在 _cgo_defun.c 中 是 封装 另 一 个 函数 来 调用 它 : 


void 
'_Cfunc_test(struct{uint8 x[8];}p) 


{ 
runtime.cgocall(_cgo_1ib9ecf7f7656_Cfunc_test, &p); 


} 


test.cgo1.go 文 件 中 包含 一 个 main 函 数 ， 它 调用 封装 后 的 函数 : 


func main() { 
_Cfunc_test(_Ctype_int(2)) 
y 


cgo 做 这 些 封 装 原因 来 自 两 方面 ， 一 方面 是 Go 运行 时 调用 cgo 代 码 时 要 做 特殊 处 理 ， 比 如 runtime.cgocall。 另 一 方面 是 由 于 
Go 和 C 使 用 的 命名 空间 不 一 样 ， 需 要 加 一 层 转 换 ， 像 . Cfunc test 中 的 :字符 是 Go 使 用 的 命令 空间 区 分 ， 而 在 C 这 边 使 用 的 是 
_cgo_1b9ecf7f7656_Cfunc test。 


cgo 会 识别 任意 的 C.XXX 关 键 字 ， 使 用 gcc 来 找到 XXX 的 定义 。C 中 的 算术 类 型 会 被 转换 为 精确 大 小 的 Go 的 算术 类 型 。C 的 结构 
体会 被 转换 为 Go 结构 体 ， 对 其 中 每 个 域 进行 转换 。 无 法 表示 的 域 将 会 用 byte 数 组 代替 。C 的 union 会 被 转换 成 一 个 结构 体 ， 这 
个 结构 体 中 包含 第 一 个 union 成 员 ， 然 后 可 能 还 会 有 一 些 填充 。C 的 数组 被 转换 成 Go 的 数组 ，C 指 针 转 换 为 Go 指针 。C 的 函数 
指针 会 被 转换 为 Go 中 的 Uinptr。C 中 的 void 指 针 转 换 为 Go 的 unsafe.Pointer。 所 有 出 现 的 C.xxx 类 型 会 被 转换 为 _C_xxx。 


如 果 xxX 是 数据 ， 那 么 cgo 会 让 C.xxx 引 用 那个 C 交 量 ( 先 做 上 面 的 转换 ) 。 为 此 ，cgo 必 须 引 入 一 个 Go 变量 指向 C 变 量 ， 链 接 
器 会 生成 初始 化 指针 的 代码 。 例 如 ，gmp 库 中 : 


mpz_t zero; 


cgo 会 引入 一 个 变量 引用 C.zero : 


Var _C zero *C.mpz.t 


然后 将 所 有 引用 C.zero 的 实例 蔡 换 为 (*_C_zero)。 


cgo 转 换 中 最 重要 的 部 分 是 函数 。 如 果 XXX 是 一 个 C 函 数 ， 那 么 cgo 会 重 写 C.XxXX 为 一 个 新 的 函数 C_xxx， 这 个 函数 会 在 一 个 标 
准 pthread 中 调用 C 的 xxx。 这 个 新 的 函数 还 负责 进行 参数 转换 ， 转 换 输 入 参数 ， 调 用 xxx， 然 后 转换 返回 值 。 


参数 转换 和 返回 值 转换 与 前 面 的 规则 是 一 臻 的， 除了 数组 。 数 组 在 C 中 是 隐 式 地 转换 为 指针 的 ， 而 在 Go 中 要 显 式 地 将 数组 转 
换 为 指针 。 


处 理 垃 圾 回收 是 个 大 问题 。 如 果 是 Go 中 引用 了 C 的 指针 ， 不 再 使 用 时 进行 释放 ， 这 个 很 容易 。 麻 烦 的 是 C 中 使 用 了 Go 的 指 
针 ， 但 是 GO 的 垃圾 回收 并 不 知道 ， 这 样 就 会 很 麻烦 。 


运行 时 库 部 分 


运行 时 库 会 对 cgo 调 用 做 一 些 处 理 ， 就 像 前 面 说 过 的 ， 执 行 C 函 数 之 前 会 运行 runtime.entersyscall， 而 C 函 数 执行 完 返回 后 会 
调用 runtime.exitsyscall。 让 cgo 的 运行 仿佛 是 在 另 一 个 pthread 中 执行 的 ， 然 后 函数 执行 完毕 后 将 返回 值 转换 成 Go 的 值 。 


比较 难处 理 的 情况 是 ， 在 cgo 调 用 的 C 函 数 中 ， 发 生 了 C 回 调 Go 函 数 的 情况 ， 这 时 处 理 起 来 会 比较 复杂 。 因 为 此 时 是 没有 Go 
运行 环境 的 ， 所 以 必须 再 进行 一 次 特殊 处 理 ， 回 到 Go 的 goroutine 中 调用 相应 的 Go 函数 代码 ， 完 成 之 后 继续 回 到 C 的 运行 环 
境 。 看 上 去 有 点 复杂 ， 但 是 cgo 对 于 在 C 中 调用 Go 函数 也 是 支持 的 。 

从 宏观 上 来 讲 cgo 的 关键 技术 就 是 这 些 ， 由 cgo 命 令 生成 一 些 桩 代码 ， 负 责 C 类 型 和 Go 类 型 之 间 的 转换 ， 命 名 空间 处 理 以 及 特 
珠 的 调用 方式 处 理 。 而 运行 时 库 部 分 则 负责 处 理 好 C 的 运行 环境 ， 类 似 于 给 C 代 码 一 个 非 分 段 的 栈 空间 并 让 它 脱 离 与 调度 系统 
的 交互 。 


9.3 Go 调用 C 


从 这 里 开始 ， 将 深入 挖掘 关于 运行 时 库 部 分 对 于 cgo 的 支持 。 还 前 面 那个 test.go 吗 ? 这 里 将 继续 以 它 为 例子 进行 分 析 。 
从 Go 中 调用 C 的 函数 test，cgo 生 成 的 代码 调用 是 runtime.cgocall(_cgo_Cfunc_test, frame) : 


void 
'_Cfunc_test(struct{uint8 x[8];}p) 


{ 
runtime.cgocall(_cgo_1ib9ecf7f7656_Cfunc_test, &p); 


} 


其 中 cgocall 的 第 一 个 参数 _cgo_Cfunc_test 是 一 个 由 cgo 生 成 并 由 gcc 编 译 的 函数 : 


void 
_cgo_1ib9ecf7f7656_Cfunc_test(void *V) 
{ 
struct { 
nt DO 
char __pad4[4]; 
} _attribute _((_ packed )) *a = v; 
test(a->p0); 


runtime.cgocall 将 g 锁 定 到 m， 调 用 entersyscall， 这 样 不 会 阻塞 其 它 的 goroutine 或 者 垃圾 回收 ， 然 后 调用 
runtime.asmcgocall(_cgo_Cfunc test, frame)。 


void 

runtime.cgocall(void (*fn)(void*), void *arg) 

人 
runtime' lockoSThread() ; 
runtime.entersyscall(); 
runtime.asmcgocall(fn, arg); 
runtime.exitsyscall(); 


endcgo(); 


将 g 锁 定 到 m 是 保证 如 果 在 cgo 内 又 回调 了 Go 代码 ， 切 换 回 来 时 还 是 在 同一 个 栈 中 的 。 关 于 C 调 用 GO， 具体 到 下 一 节 再 分 析 。 


runtime.entersyscall 宣 布 代码 进入 了 系统 调用 ， 这 样 调度 器 知道 在 我 们 运行 外 部 代码 ， 于 是 它 可 以 创建 一 个 新 的 M 来 运行 
goroutine。 调 用 asmcgocall 是 不 会 分 裂 栈 并 且 不 会 分 配 内 存 的 ， 因 此 可 以 安全 地 在 "syscall call" 时 调用 ， 不 用 考虑 
GOMAXPROCS 计 数 。 


runtime.asmcgocall 是 用 汇编 实现 的 ， 它 会 切换 到 m 的 g0 栈 ， 然 后 调用 _cgo_Cfunc _ test 函数 。 由 于 m 的 g0 栈 不 是 分 段 栈 ， 因 
此 切换 到 m->g0 栈 (这 个 栈 是 操作 系统 分 配 的 栈 ) 后 ， 可 以 安全 地 运行 gcc 编 译 的 代码 以 及 执行 cgo_Cfunc test(frame) 孔 数 。 


_cgo_Cfunc test 使 用 从 frame 结 构 体 中 取得 的 参数 调用 实际 的 C 函 数 test， 将 结果 记录 在 frame 中 ， 然 后 返回 到 
runtime.asmcgocall 。 


重 获 控制 权 之 后 ，runtime.asmcgocall 切 回 之 前 的 g(m->curg) 的 栈 ， 并 且 返 回 到 runtime.cgocall。 


当 runtime.cgocall 重 获 控制 权 之 后 ， 它 调用 exitsyscall， 然 后 将 g 从 m 中 解锁 。exitsyscall 后 m 会 阻塞 直到 它 可 以 运行 Go 代码 而 
不 违反 $GOMAXPROCS 限 制 。 


以 上 就 是 Go 调用 C 时 ， 运 行 时 库 方面 所 做 的 事情 ， 是 不 是 很 简单 呢 ? 因为 总 结 起 来 就 两 点 ， 第 一 点 是 runtime.entersyscall ， 
让 cgo 产 生 的 外 部 ni 度 系 统 。 第 二 点 就 是 切换 m 的 g0 栈 ， 这 样 就 不 必 担忧 分 段 栈 方面 的 问题 。 


前 面 讲 到 m 的 g0 栈 时 ， 留 了 个 疑问 的 。 那 就 是 新 建 M 的 函数 newm 只 给 m 的 g0 栈 分 配 了 8K 内 存 ， 好 像 并 不 是 一 个 "无 穷 " 的 栈 ， 
么 回 事 呢 ? 这 里 回答 这 个 问题 ….. 不 过 我 会 再 额外 提 两 个 新 问题， 希望 读者 跟着 思考 (好 贱 哦 ， 哈 哈 ) 。 


其 实 m 的 g0 栈 的 大 小 并 不 在 调用 newm 时 分 配 的 8K。 在 newm 函 数 的 最 后 一 步 是 调用 runtime:newosproc， 这 个 函数 会 调用 到 
操作 系统 的 系统 调用 ， 分 配 一 条 系统 线程 。 并 且 做 了 一 个 后 处 理 过 程 -- 它 将 m 的 g0 栈 指针 改 掉 了 ! m 的 g0 栈 指针 会 被 重新 设置 
为 线程 的 栈 ， 所 以 前 面 说 m 的 g0 栈 是 一 个 无穷" 的 栈 是 正确 的 ， 那 个 分 配 8K 内 存 的 地 方 只 是 一 个 烟雾 弹 迷 惑 人 的 。 


好 吧 ， 提 两 个 疑问 结束 这 一 节 内 容 : 


1. m 的 g0 栈 对 于 每 个 m 是 有 一 个 的 ，cgo 调 用 会 切换 到 这 个 栈 中 进行 。 那 么 ， 如 果 有 多 次 cgo 调 用 同时 发 生 ， 共 用 同一 个 m 
的 栈 岂 不 会 冲突 ?怎么 处 理 ? 


2. 这 一 节 只 分 配 到 了 Go 调用 C， 那 么 如 果 Go 调 用 C 的 代码 中 ， 又 回调 了 Go 函数 ， 这 时 系统 是 如 何 处 理 的 ? 


9.4 C 人 调用 Go 
cgo 不 仅仅 支持 从 Go 调用 C， 它 还 同样 支持 从 C 中 调用 Go 的 函数 ， 虽然 这 种 情况 相对 前 者 较 少 使 用 。 


//export GoF 
func GoF(arg1，arg2 int, arg3 string) int64 { 
} 


使 用 export 标 记 可 以 将 Go 函数 导出 提供 给 C 调 用 : 


extern int64 GoF(int arg1，int arg2, GoString arg3); 


下 面 让 我 们 看 看 它 是 如 何 实现 的 。 假 定 上 面 的 函数 GoF 是 在 Go 语言 的 一 个 包 p 内 的 ， 为 了 能 够 让 gcc 编 译 的 C 代 码 调 用 Go 的 函 
数 p.GoF，cgo 生 成 下 面 一 个 函数 : 


GoInt64 GoF(GoInt pO, GoInt pi, GoString p2) 


{ 
SErUCE ot 
GoInt pO; 
GoInt pl; 
GoString p2; 
GoInt64 rg; 
} _attribute ((packed)) a; 
a.pg = pO; 
a.p1 = pl; 
a.p2 = p2; 


crosscall2(_cgoexp_95935062f5b1_GoF, &a, 40); 
return a.rg; 


这 个 函数 由 cgo 生 成 ， 提 供给 gcc 编 译 。 函 数 名 不 是 p.GoOF， 因 为 gcc 没 有 包 的 概念 。 由 gcc 编 译 的 C 函 数 可 以 调用 这 个 GoF 函 


GoF 调 用 crosscall2(_cgoexp_GoF, frame, framesize)。crosscall2 是 用 汇编 代码 实现 的 ， 它 是 一 个 两 参数 的 适配器 ， 作 用 是 
从 gcc 函 数 调 用 6c 函 数 〈6c 和 gcc 使 用 的 调用 协议 还 是 有 些 区 别 的 ) 。crosscall2 实 现 了 从 一 个 ABI 的 gcc 函 数 调用 ， 到 6c 的 函 
数 调用 ABl。 所 以 上 面 代码 中 实际 上 相当 于 调用 _cgoexp_GoF(frame,framesize)。 注 意 此 时 是 仍然 运行 在 mg 的 g0 栈 并 且 不 受 
GOMAXPROCS 限 制 的 。 因 此 ， 这 个 代码 不 能 直接 调用 任意 的 Go 代码 并 且 不 能 分 配 内 存 或 者 用 尽 m->g0 的 栈 。 


_cgoexp_GoF 调 用 runtime.cgocallback(p.GoF, frame, framesize) : 


#pragma textflag 7 

void 

_cgoexp_95935062f5b1_GoF(void *a, int32 n) 
{ 


runtime.cgocallback(.:GoF, a, n); 


} 


这 个 函数 是 由 6C 编 译 的 ， 而 不 是 gcc， 因 此 可 以 引用 到 比如 runtime.cgocallback 和 p.GoF 这 种 名 字 。 


runtime:cgocallback 也 是 一 个 用 汇编 实现 的 函数 。 它 从 m->g0 的 栈 切换 回 原来 的 goroutine 的 栈 ， 并 在 这 个 栈 中 调用 

runtime.cgocallbackg(p.GoF, frame, framesize)。 

这 中 间 会 涉及 到 一 些 保 存 栈 寄存 器 之 类 的 细节 操作 比较 复杂 。 因 为 这 个 过 程 相 当 于 我 们 接管 了 m->curg 的 执行 ， 但 是 却 并 没 
完全 恢复 到 之 前 的 运行 环境 (只 是 借 m->curg 这 个 goroutine 运 行 Go 代 码 ) ， 所 以 我 们 需要 保存 当前 环境 到 以 便 之 后 再 次 返 

回 到 m->g0 栈 。 


好 了 ，runtime.cgocallbackg 现 在 是 运行 在 一 个 真实 的 goroutine 栈 中 〈 不 是 m->g0 栈 ) 。 不 过 现在 我 们 只 是 切换 到 了 goroutine 
栈 ， 此 刻 还 是 处 于 syscall 状 态 的 。 因 此 这 个 函数 会 先 调 用 runtime.exitsyscall ， ean 。 当 它 调用 
runtime.exitsyscall， 这 会 阻塞 这 条 goroutine 直 到 满足 SGOMAXPROCS 限 制 条 件 。 一 旦 从 exitsyscall 返 回 ， 则 可 以 安全 地 执 
行 像 调 用 内 存 分 配 或 者 是 调用 Go 的 回调 函数 p.GoF 。 


void 
runtime.cgocallbackg(FuncVal *fn, void *arg, uintptr argsize) 
runtime.exitsyscall(); // coming out of cgo call 
// Invoke callback. 
reflect.call(fn, arg, argsize); 
runtime.entersyscall(); // going back to cgo call 


后 面 的 过 程 就 不 用 分 析 了 ， 跟 前 面 的 过 程 是 一 个 正好 相反 的 过 程 。 在 runtime.cgocallback 重 获 控制 权 之 后 ， 它 切换 回 m->g0 
栈 ， 从 栈 中 恢复 之 前 的 m->g0.sched.sp 值 ， 然后 返回 到 _cgoexp_GoF。_cgoexp_GoF 立 即 返 回 到 crosscall2， 它 会 恢复 被 调 
者 为 gcc 保 存 的 寄存 器 并 返回 到 GoF， 最 后 返回 到 C 的 调用 函数 中 。 





无 论 是 Go 调用 C， 还 是 C 调 用 Go， 其 需要 解决 的 核心 问题 其 实 都 是 提供 一 个 C/Go 的 运行 环境 来 执行 相应 的 代码 。Go 的 代码 
执行 环境 就 是 goroutine 以 及 Go 的 runtime， 而 C 的 执行 环境 需要 一 个 不 使 用 分 段 的 栈 ， 并 且 执 行 C 代 码 的 goroutine 需 要 暂时 地 
脱离 调度 器 的 管理 。 要 达到 这 些 要 求 ， 运 行 时 提供 的 支持 就 是 切换 栈 ， 以 及 runtime.entersyscall。 


在 Go 中 调用 C 函 数 时 ，runtime.cgocall 中 调用 entersyscall 脱 离 调度 器 管理 。runtime.asmcgocall 切 换 到 m 的 g0 栈 ， 于 是 得 到 C 
的 运行 环境 。 


在 C 中 调用 Go 函数 时 ，crosscall2 解 决 gcc 编 译 到 6c 编 译 之 间 的 调用 协议 问题 。cgocallback 切 换 回 goroutine 栈 。 
runtime.cgocallbackg 中 调用 exitsyscall 恢 复 Go 的 运行 环境 。 


10.1 内 存 模 型 


内 存 模 型 是 非常 重要 的 ， 理 解 Go 的 内 存 模 型 会 就 可 以 明白 很 多 奇怪 的 竞 态 条 件 问 题 ，"The Go Memory Model" 的 原文 在 这 
里 ， 读 个 四 五 遍 也 不 算 多 。 


这 里 并 不 是 要 翻译 这 篇 文章 ， 英 文 原文 是 精确 的 ， 但 读 起 来 却 很 上 涩 ， 尤 其 是 happens-before 的 概念 本 身 就 是 不 好 理解 的 ， 
很 容易 跟 时 序 问题 混淆 。 大 多 数 读者 第 一 遍 读 Go 的 内 存 模 型 时 基本 上 看 不 懂 它 在 说 什么 。 所 以 我 要 做 的 事情 用 不 怎么 精确 但 
相对 通俗 的 语言 解释 一 下 。 

先 用 一 句 话 总 结 ，Go 的 内 存 模型 描述 的 是 "在 一 个 groutine 中 对 变量 进行 读 操作 能 够 侦 测 到 在 其 他 goroutine 中 对 该 变量 的 写 操 


心 三 


作 "的 条 件 。 


内 存 模 型 相关 bug 一 例 
为 了 证 明 这 个 重要 性 ， 先 看 一 个 例子 。 下 面 一 小 段 代码 : 


package main 


import ( 
"synce" 
meme 


) 


func main() { 
var wg sync.WaitGroup 
var count int 
var ch = make(chan bool, 1) 
For T := 0 Te 10 Ltt € 
wg.Add(1) 
go func(t) 4 
ch <- true 
count++ 
time.Sleep(time.Millisecond) 
count-- 
<-ch 
wg .Done() 
}() 
» 
wg.wait() 
jr 


以 上 代码 有 没有 什么 问题 ?这 里 把 buffered channel 作 为 semaphore 来 使 用 ， 表 面 上 看 最 多 允许 一 个 goroutine 对 count 进 行 
++ 和 --， 但 其 实 这 里 是 有 bug 的 。 根 据 Go 语言 的 内 存 模型 ， 对 count 变 量 的 访问 并 没有 形成 临界 区 。 编 译 时 开启 竞 态 检测 可 以 
看 到 这 段 代码 有 问题 : 


go run -race test.go 


编译 器 可 以 检测 到 16 和 18 行 是 存在 竟 态 条 件 的 ， 也 就 是 count 并 没 像 我 们 想 要 的 那样 在 临界 区 执行 。 继 续 往 下 看 ， 读 完 这 一 
节 ， 回 头 再 来 看 就 可 以 明白 为 什么 这 里 有 bug 了 。 


happens-before 


happens-before 是 一 个 术语 ， 并 不 仅仅 是 Go 语言 才 有 的 。 简 单 的 说 ， 通 常 的 定义 如 下 : 


假设 A 和 B 表 示 一 个 多 线程 的 程序 执行 的 两 个 操作 。 如 果 A happens-before B， 那 么 A 操 作对 内 存 的 影响 将 对 执行 B 的 线程 ( 且 
执行 B 之 前 ) 可 见 。 


无 论 使 用 哪 种 编程 语言 ， 有 一 点 是 相同 的 : 如 果 操 作 A 和 B 在 相同 的 线程 中 执行 ， 并 且 A 操 作 的 声明 在 B 之 前 ， 那 么 A 
happens-before B 。 


int A, B; 
void foo() 
// This store to A ... 
A= 5; 
// ... effectively becomes visible before the following loads. Duh 
BSE= A A 
了 


还 有 一 点 是 ， 在 每 门 语言 中 ， 无 论 你 使 用 那 种 方式 获得 ，happens-before 关 系 都 是 可 传递 的 : 如 果 A happens-before B， 同 
时 B happens-before C， 那 么 Ahappens-before C。 当 这 些 关 系 发 生 在 不 同 的 线程 中 ， 传 递 性 将 变 得 非常 有 用 。 


刚 接 触 这 个 术语 的 人 总 是 容易 误解 ， 这 里 必须 洪 清 的 是 ，happens-before 并 不 是 指 时 序 关 系 ， 并 不 是 说 A happens-before B 
就 表示 操作 A 在 操作 B 之 前 发 生 。 Me ， 就 像 光 年 不 是 时 间 单 位 一 样 。 具 体 地 说 : 


1. Ahappens-before B 并 不 意味 着 A 在 B 之 前 发 生 。 
2. A 在 B 之 前 发 生 并 不 意味 着 Ahappens-before B。 


这 两 个 陈述 看 似 矛盾 ， 其 实 并 不 是 。 如 果 你 觉得 很 困惑 ， 可 以 多 读 几 篇 它 的 定义 。 后 面 我 会 试 着 解释 这 点 。 记 住 ，happens- 
before 是 一 系列 语言 规范 中 定义 的 操作 间 的 关系 。 它 和 时 间 的 概念 独立 。 这 和 我 们 通常 说 "A 在 B 之 前 发 生 " 时 表达 的 站 实 世 界 
中 事件 的 时 间 顺 序 不 同 。 


A happens-before B 并 不 意味 着 A 在 B 之 前 发 生 


里 有 个 例子 ， 其 中 的 操作 具有 happens-before 关 系 ， 但 是 实际 上 并 不 一 定 是 按照 那个 顺序 发 生 的 。 下 面 的 代码 执行 了 (1) 对 
A 的 赋值 ， 紧 接着 是 (2) 对 B 的 赋值 。 


int A = 0; 

int B = 0; 

void main() 

{ 
A= BL A (LY 
B= 1 XX (2) 


根据 前 面 说 明 的 规则 ，(1) happens-before (2)。 但 是 ， 如 果 我 们 使 用 gcc -O2 编 译 这 个 代码 ， 编 译 器 将 产生 一 些 指 令 重 排序 。 
有 可 能 执行 顺序 是 这 样子 的 : 





将 B 的 值 取 到 寄存 器 
将 B 赋 值 为 工 
将 寄存 器 值 加 1 后 赋值 给 A 


也 就 是 到 第 二 条 机 器 指令 (对 B 的 赋值) 完成 时 ， 对 A 的 赋值 还 没有 完成 。 换 句 话说 ，(1) 并 没有 在 (2) 之 前 发 生 | 


那么 ， 这 里 违反 了 happens-before 关 系 了 吗 ? 让 我 们 来 分 析 下 ， 根 据 定义 ， 操 作 (1) 对 内 存 的 影响 必须 在 操作 (2) 执 行 之 前 对 其 
可 见 。 换 句 话 说， 对 A 的 赋值 必须 有 机 会 对 B 的 赋值 有 影响 


但 是 在 这 个 例子 中 ， 对 A 的 赋值 其 实 并 没有 对 B 的 赋值 有 影响 。 即 便 (1) 的 影响 站 的 可 见 ，(2) 的 行为 还 是 一 样 。 所 以 ， 这 并 不 


六 
能 算是 违背 happens-before 规 则 。 


A 在 B 之 前 发 生 并 不 意味 着 A happens-before B 


下 面 这 个 例子 中 ， 所 有 的 操作 按照 指定 的 顺序 发 生 ， 但 是 并 能 不 构成 hnappens-before 关系 。 ee 
pulishMessage， 同 时 ， 另 一 个 线程 调用 consumeMessage。 由 于 我 们 并 行 的 操作 共享 变量 ， 为 了 简单 ， 我 们 假设 所 有 对 int 
类 型 的 变量 的 操作 都 是 原子 的 。 


int isReady = 0; 
int answer = 0) 
void publishMessage() 
下 

answer = 42; // ( 


2 
isReady = 1; // (2) 


} 

void consumeMessage() 

人 
if (isReady) // (3) <-- Let's suppose this line reads 1 
printf("%d\n", answer); // (4) 

了 


根据 程序 的 顺序 ， 在 (1) 和 (2) 之 间 存 在 happens-before 关系 ， 同 时 在 (3) 和 (4) 之 间 也 存在 happens-before 关 系 。 


除 此 之 外 ， 我 们 假设 在 运行 时 ，isReady 读 到 1( 是 由 另 一 个 线程 在 (2) 中 赋 的 值 ) 。 在 这 中 情形 下 ， 我 们 可 知 (2) 一 定 在 (3) 之 前 发 
生 。 但 是 这 并 不 意味 着 在 (2) 和 (3) 之 间 存 在 happens-before 关系 ! 


happens-before 关系 只 在 语言 标准 中 定义 的 地 方 存在 ， 这 里 并 没有 相关 的 规则 说 明 (2) 和 (3) 之 间 存 在 happens-before 关 系 ， 
即便 (3) 读 到 了 (2) 赋 的 值 。 


还 有 ， 由 于 (2) 和 (3) 之 间 ，(1) 和 (4) 之 间 都 不 存在 happens-before 关 系 ， 那 么 (1) 和 (4) 的 内 存 交互 也 可 能 被 重 排序 (要 不 然 来 自 
编译 器 的 指令 重 排序 ， 要 不 然 来 自 处 理 器 自身 的 内 存 重 排序 )。 那 样 的 话 ， 即 使 (3) 读 到 1，(4) 也 会 打印 出 "0“。 








Go 关于 同步 的 规则 


我 们 回 过 头 来 再 看 看 "The Go Memory Model" 中 关于 happens-before 的 部 分 。 
如 果 满 足下 面条 件 ， 对 变量 v 的 读 操作 r 可 以 侦 测 到 对 变量 v 的 写 操 作 w : 


1. r does not happen before w. 
2. There is no other write w to v that happens after w but before r. 


为 了 保证 对 变量 Vv 的 读 操 作 [r 可 以 侦 测 到 某 个 对 Vv 的 写 操 作 Ww， 必 须 确保 W 是 r 可 以 侦 测 到 的 唯一 的 写 操作 。 也 就 是 说 当 满 足下 面 
条 件 时 可 以 保证 读 操作 r 能 侦 测 到 写 操作 w : 


1. w happens-before 上 
2. Any other write to the shared variable v either happens-before w or after r. 


关于 channel 的 happens-before 在 Go 的 内 存 模型 中 提 到 了 三 种 情况 : 


1. 对 一 个 channel 的 发 送 操作 happens-before 相应 channel 的 接收 操作 完成 
2. 关闭 一 个 channel happens-before 从 该 Channel 接 收 到 最 后 的 返回 值 0 
3. 不 带 缓冲 的 channel 的 接收 操作 happens-before 相应 channel 的 发 送 操作 完成 


先 看 一 个 简单 的 例子 : 


var c = make(chan int, 10) 
var a string 
func Ff{) { 
a = "hello, world" // (1) 
Co (2) 
func main() { 
go f() 
Ce (| 
print(a) // (4) 


上 述 代码 可 以 确保 输出 "hello, world"， 因 为 (1) happens-before (2)，(4) happens-after (3)， 再 根据 上 面 的 第 一 条 规则 (2) 是 
happens-before (3) 的 ， 最 后 根据 happens-before 的 可 传递 性 ， 于 是 有 (1) happens-before (4)， 也 就 是 a = "hello, world" 
happens-before print(a)。 


再 看 另 一 个 例子 : 


var c = make(chan int) 
var a string 
Func tl) 
a = "hello, world" // (1) 
0 A (2 
3 
func main() { 
go f() 
CE 0 /A/ (3) 
print(a) /7 (4) 


根据 上 面 的 第 三 条 规则 (2) happens-before (3)， 最 终 可 以 保证 (1) happens-before (4)。 


var c = make(chan int, 1) 
var a string 
func f() { 
a = "hello, world" // (1) 
<-C i | 
下 
func main() { 
go f() 
C3/ (Sn 
print(ta)y vA (a4) 


因为 这 里 不 再 有 任何 同步 保证 ， 使 得 (2) happens-before (3)。 可 以 回头 分 析 一 下 本 节 最 前 面 的 例子 ， 也 是 没有 保证 happens- 
before 条 件 。 
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